Corela (Português)

Agradecemos a equipe inteira do setor de tecnologia da web no JRC por nos fornecer os valiosos dados de notícias para testar as ferramentas, bem como para o seu suporte técnico . Também queremos agradecer a Carlo Ferigato, que nos apresentaram a várias técnicas de correspondência fuzzy. Agradecemos a Tomaž Erjavec por nos ajudar com a língua eslovena e Helen Salak por nos fornecer conhecimento sobre Farsi.

introdução

1many organizações grandes monitorar continuamente a mídia, e especialmente as notícias, para se manter informado sobre eventos de interesse, e descobrir o que a mídia diz sobre certas pessoas, organizações, ou sujeitos. Ferramentas de software que automaticamente pré-selecionam os artigos de notícias e que pré-processo a coleta de texto escolhida simplifique a tarefa repetitiva diária do monitoramento de mídia. Crestan & de Loupy (2004) mostrou que a extração e visualização da entidade nomeada ajudam os usuários a navegar em grandes coleções de documentos com mais rapidez e eficiência. Isso parece plausível como, de acordo com Gey (2000), 30% das palavras com conteúdo nas notícias são nomes apropriados.

2in análise de notícias É importante saber qual é o assunto, que está sendo falado, onde e quando as coisas aconteceram e como foi relatado. Este artigo concentra-se na ocorrência de nomes apropriados nas notícias, isto é, a parte da análise. O trabalho anterior focado em responder às perguntas o que (Pouliquen et al. 2004b), onde (Pouliquen et al. 2004a) e quando (Ignat et al. 2003). Devido ao ambiente de trabalho altamente multilíngüe na Comissão Europeia – uma organização com vinte línguas oficiais – multilinguismo de ferramentas e o aspecto transversal são de primordial importância.

  • 1 demonstração disponível em http://press.jrc.it/NewsExplorer

A 3OUR é aplicada à saída do sistema de monitor de mídia da Europa EMM (melhor et al., 2002). A EMM é um conjunto de ferramentas de software que monitora uma média diária de 25.000 artigos de notícias em atualmente 30 idiomas, derivando de 800 fontes de notícias internacionais diferentes. Para um subconjunto de cerca de 15.000 artigos por dia em atualmente oito idiomas, aplicamos técnicas de cluster hierárquicas não supervisionadas para agrupar artigos relacionados separadamente para cada idioma. Em seguida, rastreamos clusters de notícias relacionadas dentro da mesma língua e entre seis dos idiomas (Pouliquen et al. 2004b) 1. As ferramentas de reconhecimento de nomes da JRC são aplicadas a cada um desses clusters, ou seja, cada grupo de textos relacionados é tratado como um meta-texto, para o qual pessoa e nomes de lugar geográficas são extraídos e palavras-chave são identificadas.

4After dando algum plano de fundo no nome Transliteração e referindo-se ao trabalho relacionado (fundo de seção e trabalho relacionado), descrevemos ferramentas para identificar nomes no texto (seção de reconhecimento de nome próprio) e o mecanismo para mesclar Nomeiam variantes, incluindo aqueles escritos em script cirílico, árabe e grego (seção detectando e mesclando variantes de nome). Isto é seguido por resultados de avaliação (avaliação da seção) e por uma seção sobre relações de aprendizagem entre as pessoas e como as informações geradas automaticamente em nomes podem ser usadas na análise automática de notícias (seção usando nomes para explorar coleções de documentos).

Tabela 1: Visão geral do nome da pessoa reconhecida em vários idiomas onde as várias ortografias se referem à mesma pessoa.

Tabela 1: Visão geral do nome da pessoa reconhecida em vários idiomas onde as várias ortografias se referem à mesma pessoa.

O itálico sendo a (s) palavra (s) reconhecida (s) .

Background e trabalho relacionado

5Este seção fornece algum plano de fundo e pontos para aplicativos de última geração em relação ao reconhecimento de entidade nomeado (ver reconhecimento de entidade nomeado), Transliteração de nomes de pessoa e seu mapeamento com variantes europeus (ver transliteração de nomes apropriados), e o uso de gráficos mostrando relações entre pessoas (ver Mapas de relação).

Nomeado reconhecimento de entidade

6though chamado reconhecimento de entidade (ner) é uma área de pesquisa conhecida (por exemplo, MUC-6 1995, Daille & Morin 2000), o reconhecimento multilíngüe da entidade é bastante novo (ACL-MLNER 2003, Poibau 2003). Além disso, o aspecto transversal (detectar os mesmos nomes entre os idiomas) é muitas vezes limitado a pares de idiomas simples ou só pode ser treinado em texto paralelo.

7people Os nomes podem ser reconhecidos no texto (A) através de um Procedimento de pesquisa Se existir uma lista de nomes conhecidos, (b) analisando o contexto local (por exemplo, o apelido de nome ‘do presidente’), (c) porque parte de uma seqüência de palavras candidatas é um componente conhecido de nome (por exemplo, ‘John’ Sobrenome) ou (d) porque a seqüência de peças circundantes de fala indica a um torneira que um certo grupo de palavras é provável que seja um nome. Às vezes, as abordagens de aprendizagem de máquinas são usadas para reconhecer nomes dentro de seu contexto, olhando para palavras em torno dos nomes conhecidos.Para as línguas europeias, é suficiente considerar apenas palavras maiúsculas. Outras línguas, como árabe, não distinguem o caso. No JRC, atualmente usamos métodos (A) para (c), mas não usamos taggers de parte da fala, porque não temos acesso a tal software para todos os idiomas de interesse. Atualmente, restringimos o reconhecimento aos nomes que consistem em menos duas partes. Até agora, o foco tem sido os nomes das pessoas, mas também reconhecemos alguns nomes de organizações.

transliteração de nomes apropriados

  • 2 Uma pesquisa no Google dá uma ideia do uso de cada ortografia como:
    Mohammed: 7,410.000, Mohamed : 5, (…)

8Transliteração é o processo de representar palavras de um idioma usando o alfabeto ou sistema de escrita de outro idioma (Arbabi et al., 1994). A transliteração é usada para formular conceitos existentes principalmente em um idioma (por exemplo, a Lei da Sharia) em outra, ou para relatar nomes de pessoas, organizações ou lugares. Transliteração de uma linguagem como o árabe diferiria dependendo da linguagem-alvo. Um exemplo é o nome árabe ãíélï, que poderia ser transliterado para o inglês como ‘muhamed’ ou “muhammed”, enquanto uma provável transliteração francesa seria “mohamed” ou ‘Mohammed’.2

Especificidade de Nomes de Pessoas Transliterativas

Existem planos de publicações, sites e transliteração existem idiomas que usam os alfabetos cirílicos, gregos ou árabes, mas a maioria deles se aplica a palavras gerais, em vez de nomes pessoais. A diferença fundamental entre as palavras de linguagem natural transliterar e os nomes transliteradores é que a pronúncia das palavras normalmente segue algumas convenções, o que significa que as regras de equivalência linguística artesanal podem ser usadas. Enquanto o mesmo pode ser parcialmente verdadeiro para nomes da mesma linguagem (por exemplo, nomes russos em texto russo), a transliteração se torna mais difícil quando os nomes encontrados são de origem internacional – como costuma ser o caso em artigos de notícias. Por exemplo, em um artigo de notícias russa, é provável que os nomes de origem francesa, italiana, inglês ou árabe sejam encontrados. A fim de transliterar esses nomes internacionais eficientemente, seria necessário conhecer a fonte do nome como isso nos diz sobre a equivalência de linguagem de destino. Se a origem do nome Chirac, por exemplo, é conhecida como sendo francesa, então é pronunciado como / ʃi1ak / e deve ser transcrito como Ôí, em árabe, ou ширак em russo. No entanto, se fosse um nome italiano, seria pronunciado como / kirak / e transliterated como ßíñçß em árabe e кирак em russo.

lidar com muitos pares de linguagem

10 Porque da dependência da linguagem da transliteração, o trabalho anterior em nome automático transliteração sempre foi realizado para pares de idiomas específicos, como o inglês ou Russo-Inglês, como pode ser visto na grande enumeração do trabalho anterior em Lee et al. (2005). Embora seja provável que esta limitação para pares de idiomas específicos produz melhores resultados do que a nossa abordagem independente de linguagem, essas abordagens dependentes de linguagem não são uma opção útil no contexto do nosso sistema de análise de notícias altamente multilíngüe, que visa lidar com vinte ou mais idiomas e onde a linguagem original dos nomes geralmente não é conhecida.

Desafios de transliteração

11A transliteração de nomes de cada sistema de escrita representa seu próprio desafio. Os scripts cirílicos e gregos parecem ser mais semelhantes ao roteiro latino em que são basicamente fonéticos: letras ou grupos de letras correspondem a sons específicos. Os principais problemas são (a) equivalências de carteira de fonema estão em um relacionamento N-para-N (ou seja, uma carta pode ser pronunciada de maneiras diferentes e um determinado som pode ser escrito com letras diferentes), e (b) o inventário do fonema Em diferentes idiomas (e sistemas de escrita) difere: Se uma linguagem não conhece um som, ele transliterará esse som por outro semelhante. Quando voltar-se transliterar o nome, a ortografia é, portanto, provável de estar errada. Por exemplo, o som alemão e inglês para a letra ‘H’ é desconhecido em russo e é freqüentemente transliterado em ‘г’, pronunciado / g /. Exemplos são o nome da cidade Heidelberg (гейдельберг ‘, pronunciado / Gejdɛljberk /) e Harry Potter (гарри поттер, pronunciado / Garipotɛr /). Quando esses nomes são encontrados no texto russo e estão devolvidos transliteraram em inglês ou alemão, eles aparecerão como ‘Geidelberg’ e ‘Gari Potter’, ou similar.

Desafios específicos para a transliteração árabe

12arabic não possui os sons / p /, / v / e / g /. “Paulo” é transcrito como بول / bol /, ‘Valery’ como فاليري (/ faliry /), e ‘globo’ como غلوب (/ 1LO: b /). Um nome como ‘Vladimir Putin’ será, portanto, transliteraram como فلاديمير بوتين (/ fladimi: r buti: n /).

13Transliteração de árabe a idiomas usando o alfabeto latino (romanização) é adicionalmente dificultado pelo fato de que as vogais curtas geralmente não são escritas em árabe. Qualquer esforço de romanização, portanto, normalmente inclui vogelização, isto é, a inserção das vogais curtas na linguagem-alvo (ARBABI, 1994). Como os dialetos árabes diferem na pronúncia, a vogelização é claramente dependente do dialeto. Isto é presumivelmente a razão pela qual, para a grafia única do nome árabe Óáíivä, quarenta transliterações diferentes, incluindo ‘Selayman’, ‘Seleiman’, ‘Sulomon’, ‘Sulomão’ e ‘Silhayman’.

desafios para idiomas usando ideografias

14Transliteração em linguagens com um sistema de redação ideográfica, como chinês, onde cada símbolo é equivalente a um conceito em vez de um som, tem que ser abordado em uma maneira inteiramente diferente. O chinês tem um sistema de sílabas chamado Pinyin (Swofford 2005), uma combinação de sons iniciais e finais que podem ser usados para construir cerca de 300 sílabas. Ao transmitir nomes não chineses, uma aproximação mais próxima da sílaba é vista, e para cada sílaba um ideograma correspondente chinês pode ser escolhido a partir da lista de diferentes variantes de tom. A transcrição de um nome inglês ou alemão consistirá, portanto, uma concatenação de sílabas chinesas. Por exemplo, “Beethoven” seria representado em Pinyin como “bej-do-fen”.

Métodos para transliterar

Os sistemas de transliteração automáticos automáticos, usam regras linguísticas artesanais, ou eles usam métodos de aprendizagem de máquina (por exemplo, Lee et al. 2005), ou uma combinação de ambos. Arbabi et al. (1994), por exemplo, usam regras linguísticas e redes neurais para vogelise e romenos nomes árabes, bem como para filtrar os formulários de palavra alvo improváveis. Lee et al. (2005) Aprenda o nome Transliteração de grandes listas bilíngües em inglês chinês de nomes adequados, usando o algoritmo de maximização de expectativa. Eles não usam dicionários de pronúncia ou pontuações de similaridade fonéticas geradas manualmente. No JRC, estamos usando regras de transliteração artesanais. A saída é então processada por novas regras de substituição artesanais para produzir uma representação padrão interna (consulte a seção detectando e mesclando variantes de nome).

Mapas de relação

16Quando um extrato de ferramentas Nomes de documentos, implicitamente gera informações úteis sobre a co-ocorrência de pessoas. Ben-Dov et al. (2004), que trabalhou em ambientes de detecção de relacionamentos e visualizá-los, citação: ‘Conhecimento pode ser criado por desenho de inferência do que já é conhecido’ (Davies 1989). Tal conhecimento ou informação pode ser visualizada com os mapas de relações.

17in princípio, dois métodos podem ser usados para gerar informações de relação: (a) a observação da co-ocorrência de nomes no mesmo texto, e (b) o uso de regras semânticas sintáticas para detectar relações mais específicas entre pessoas. Se duas pessoas são frequentemente mencionadas no mesmo documento (informações de co-ocorrência), provavelmente estarão em um determinado relacionamento. Essa relação é difícil de rotular, pois poderia ser amizade, rivalidade, relacionamento familiar, pertencente à mesma organização, participação na mesma reunião, etc. Um sistema baseado em regras, por outro lado, seria capaz de detectar mais relacionamentos. Ben-Dov et al. (2004) comparar ambas as abordagens e chegar à conclusão de que, ao procurar informações sobre reuniões conjuntas, os algoritmos baseados em co-ocorrência exibem um bom recall, mas são ruins para precisão, enquanto o inverso é verdadeiro para métodos baseados em regras. Os autores estimam que a escrita de regras para identificar “participação em uma reunião comum” leva um programador entre uma e três semanas apenas para um idioma, assumindo que um analisador apropriado esteja disponível. A vantagem da abordagem baseada em co-ocorrência, usada pelo CCI, é que nenhuma regra precisa ser escrita e que as mesmas fórmulas matemáticas possam ser usadas para descrever as relações (co-ocorrência) em todas as línguas.

18o sistema comercial Condence mapas, por conivências, apresenta relacionamentos entre os atores nas notícias, mas eles não fornecem detalhes sobre os algoritmos usados (consulte visitou pela última vez 06 / 06/2005).

reconhecimento de nome adequado

19AC, adicionamos todos os nomes detectados durante a nossa análise diária de notícias a um banco de dados de nomes conhecidos, para que esses nomes possam ser reconhecido no futuro por um procedimento de pesquisa simples (método (A) descrito na seção denominada reconhecimento de entidade). Após um ano de análise de notícias, o banco de dados cresceu para cerca de 150.000 nomes distintos (sem contar variantes do mesmo nome; consulte a seção detectando e mesclando variantes de nome). Mais de 500 novos nomes são inseridos todos os dias. Por motivos de desempenho, é usado um autômato do estado finito compatível com Unicode (UTF-8).Um conjunto de expressões regulares é gerado para cada entrada do banco de dados como entrada para o Flex Utility (Paxson 1995), que gera o autômato. Para excluir o reconhecimento de variantes de nomes devido a erros de digitação, o Automaton busca apenas nomes que foram encontrados pelo menos duas vezes. Até hoje, a ferramenta, portanto, procura cerca de 50.000 pessoas, representando cerca de 60.000 ortografias diferentes.

palavras de gatilho

20 para adivinhar novos nomes (método (b) descrito na seção denominada reconhecimento de entidade), Uma extensa lista de padrões locais foi desenvolvida em um procedimento de inicialização: escrevemos padrões locais simples em Perl para reconhecer nomes em uma coleção de três meses de notícias em inglês, francês e alemão. Em seguida, analisamos os contextos laterais esquerdo e direito mais frequentes da lista resultante de nomes conhecidos. Somente por inglês, atualmente temos cerca de 1.100 padrões locais, consistindo de títulos (‘Dr.’, ‘Sr.’, etc.), adjetivos de país (como ‘estoniano’), profissões (‘ator’, ‘tenista’, etc), padrões específicos (como ‘+ anos de idade’), etc. Referimo-nos a esses padrões locais como palavras de gatilho. Para cada linguagem adicionada, falantes nativos traduzem as listas de padrões existentes e usam o mesmo procedimento de bootstraps para completar os padrões.

21 Those Padrões permitem que o programa reconheça novos nomes (isto é, no ‘American Doctor John Smith’), mas uma lista armazenada de tais padrões também é útil para fornecer informações adicionais sobre pessoas. No exemplo anterior, por exemplo, o usuário verá que John Smith provavelmente é um médico americano. Quando um nome é frequentemente usado com as mesmas palavras de gatilho, as medidas estatísticas podem ser usadas para qualificar nomes automaticamente. Por exemplo, George W. Bush será reconhecido como sendo o presidente americano, Rafik Hariri como sendo o ‘ex-primeiro-ministro libanês’, etc.

22 Currently O JRC tem regras para as seguintes línguas: inglês, francês , Alemão, espanhol e italiano. Até certo ponto, temos alguns padrões holandeses, estonianos e eslovenos. Uma primeira versão do russo está quase pronta, o árabe está em desenvolvimento. O objetivo é incluir todas as vinte línguas oficiais da União Europeia e dos países candidatos.

Tabela 2: Dois exemplos de padrões usados para reconhecer Tony Blair e Romano Prodi em textos eslovenos

P> Tony (A | O | OM | Om | m | JA | Ju | Jem)? \ S + Blair (A | O | U | Em | M | Ju | Jem | JA)

Romano (A | O | OM | Om | M | Ju | Jem | JA)? \ S + Prodi (A | O | U | Om | Em | M | Ju | Jem | JA) ?

Lidar com a declinação

23in Alguns idiomas, especialmente em idiomas eslavos e finno-ugric, tanto os padrões locais quanto os nomes apropriados são flexíveis e podem ter sufixos, como Pode ser visto no exemplo esloveno ‘Tožba Proti Donaldu Rumsfeldu Zaradi Mučenj’. O autômato para reconhecer os nomes, portanto, tem que permitir uma variedade de sufixos (no exemplo determinado, o sufixo ‘U’ foi adicionado ao nome Donald Rumsfeld). Algumas das regras escritas à mão usadas no JRC para detectar a pessoa e os nomes de lugares consistem apenas em possíveis listas de sufixo para cada nome. Outros são mais complexos, por exemplo, usando funções de substituição para detectar o novo Yorgile do Estoniano como uma inflexão de Nova York ou detectando que o ‘O’ em Romano Prodi faz parte do nome e não deve ser identificado como o ‘O’-sufixo em Texto esloveno. A Tabela 2 mostra duas listas de sufixo de amostra necessárias para detectar nomes conhecidos em texto esloveno. A Tabela 3 lista as regras usadas para gerar variantes inflexíveis automaticamente para nomes russos em nosso banco de dados.

Tabela 3: Regras simplificadas para criar um padrão que reconhece todas as declescas possíveis de um determinado nome no texto russo.

armazenamento de nomes em um banco de dados

  • 3 http://en.wikipedia.org/

24 Names identificados em qualquer um dos idiomas analisados são armazenados automaticamente em um banco de dados , juntamente com informações sobre onde e quando o nome foi encontrado e com informações sobre a linguagem do texto. As palavras do gatilho encontradas em torno do nome também são armazenadas. Cada nome distinto é atribuído um identificador numérico. Variantes identificadas para o mesmo nome (consulte a seção detectando e mesclando variantes de nome) são todos armazenados com o mesmo identificador. Para adicionar variantes adicionais de nomes, especialmente em idiomas não européias, pesquisamos automaticamente a enciclopédia on-line gratuita Wikipedia3 para todos os nomes em nosso banco de dados (cf. figura). Quando existe uma entrada de Wikipedia, adicionamos os URLs correspondentes ao banco de dados para permitir que os usuários encontrem informações adicionais sobre uma determinada pessoa. Além disso, copiamos a fotografia da pessoa, quando disponível.

25 Quais detectarmos novos nomes, usamos uma ferramenta de correspondência fuzzy para detectar automaticamente se o nome é uma variante de um nome já presente em O banco de dados (consulte a seção Fuzzy Catching de variantes de nome).

Tabela 1 demonstra o quão difícil o reconhecimento de nome pode ser entre os idiomas.

Tabela 1 demonstra o quão difícil o reconhecimento de nome pode ser entre os idiomas.

26entry para RAFIK HARIRI na enciclopédia da Wikipedia (http://en.wikipedia.org/ wiki / rafik_hariri), e algumas variantes de nomes detectadas automaticamente

detectando e variantes de nomes de mesclagem

27 para muitos nomes de pessoas, várias variantes são usadas na mídia, não apenas entre os idiomas (ver Tabela 1), mas muitas vezes até mesmo dentro da mesma língua (em 50 artigos de inglês publicados no dia 14 de abril 2005, encontramos quatro ortografias: Rafik Hariri, Rafik Al-Hariri, Rafiq Hariri e Rafiq Al-Hariri). Para permitir que os usuários encontre informações sobre certas pessoas independentemente da ortografia do nome, pretendemos armazenar todas as variantes de nomes junto com um identificador numérico único.

28using a semelhança da ortografia do nome (descrita na seção fuzzying correspondência de variantes de nomes), nós mesclamos atualmente candidatos variantes de nome automaticamente se eles forem encontrados no mesmo cluster de notícias e se sua pontuação de similaridade for alta o suficiente (70 %). Como os clusters podem consistir entre 2 e 100 artigos falando sobre o mesmo evento (para detalhes, é bastante provável que duas variantes do nome da mesma pessoa sejam encontradas no mesmo cluster.

  • 4 O artigo fez, de fato, intenção de falar sobre Daniella Cigarelli (‘Reciente separación de la Modelo (…)

29as o sistema para combinar nomes Idiomas ainda estão em desenvolvimento, a mesclagem de variant do nome cruzado é feito apenas se duas variantes estiverem extremamente próximas (ou seja, similaridade mais de 95%). Quando um novo nome é detectado, sua semelhança com todos os outros nomes é computada. Em seguida, o processo mescla automaticamente nomes semelhantes (consulte a Tabela 4 para exemplos compilados por um dia). Para os outros (similaridade entre 80% e 95%), o sistema exibe uma lista de novos nomes semelhantes aos anteriores (candidatos variantes), pedindo um humano confirmação antes de mesclá-las. Como mostrado nos exemplos na Tabela 5, todos os nomes para esse dia precisam ser fundido. Mesmo o caso de Daniel Cinarelli acabou por ser um erro de digitação para que os dois nomes fossem mesclados4.

30as Não consideramos o contexto dos nomes, poderia acontecer que o sistema funcia nomes como ‘Mariana Gonzalez’ (um esgrimista venezuelano) e ‘Mariano Gonzalez’ (um futebol argentino jogador). O sistema permite, portanto, a intervenção manual corrigir nomes incorretamente mesclados ou para mesclar duas variantes que não foram detectadas automaticamente.

31AS mostrado na Tabela 4, Tabela 5 e nota-nota 4, alguns nomes errados aparecem nas notícias, mas é importante capturá-los de qualquer maneira para melhorar o recall.

Tabela 4: Lista de nomes extremamente semelhantes encontrados nas notícias de um único dia (30 de maio de 2005).

novo nome

abdüllatif sener

abdullatif sener

Abubakar Tanko

aboubakar Tanko

allan mcdonald

alan mcdonald

Bahiya al-hariri

bahia al-hariri

brian herta

Bryan Herta

eid cabalu

eid kabalu

hassan mohamed nur

hassan moha Med Nuur

ismail al-hadithi

ismail al hadithi

johana melka

johanna melka

josé Luis lingeri

jose luis lingeri

Luis Fernández

Luis Fernandez

michael haefrati

michael haephrati

Mohamed DHIA

Mohammed Dhiaa

nikolas sarkozy

nicolas sarkozy

salomé zurabishvili

sal ome zurabishvili

sergei brin

sergey brin

stanley fisher

stanley fischer

surat ikramov

sourat ikramov

trudi stevenson

trudy stevenson

werner schneyder

werner schneider

Essas variantes são mescladas automaticamente.

Tabela 5: Lista de novos nomes semelhantes (30 de maio de 2005).

Russ Young

Ross Young

Gary Shafer

gary sheffer

Mohammed DHIA

mahammad dhiya

brian vilora

brian viloria

Saad al-Harir

saad al-hariri

Pierre Gadonnaix

Pierre Gadonneix

abudullahi yusuf

abdullahi yusuf

… (completamente 24 proposições) …

daniel cicarelli

daniella cicarelli

Antes de mesclar essas variantes, é necessária uma confirmação manual.

32 Duas para o uso de diferentes scripts em grego, russo e árabe, a fusão de nomes nesses idiomas Parcialmente difere do processo usado para idiomas escritos com o alfabeto romano.

Normalização da ortografia do nome

33name variantes entre os idiomas são frequentemente devido à omissão de diacríticos. Por exemplo, um jornal britânico pode às vezes se referir a François Mitterrand como Francois Mitterrand. Várias outras variações regulares que observamos são o singling de consoantes duplas, transcrições de f por pH (por exemplo, Ralph Schumacher), uso alternativo de W ou V em nomes russos (por exemplo, Wladimir vs. vladimir), grafias alternativas do som ‘Como u ou ou, etc. em idiomas como a lituânia, as transcrições são comuns (por exemplo, Buš para Bush). Portanto, decidimos desenvolver uma representação interna padrão, ISR, que tem o objetivo pragmático de vincular as variantes, sem querer fazer reivindicações teóricas de qualquer tipo.

Antes de calcular uma semelhança entre pares de nomes, todos os nomes são padronizados usando um conjunto de aproximadamente 30 regras de substituição. Exemplos são:

  • Caractere acentuado → equivalente não acentuado

  • dupla consoante → único consoante

  • ou → u

  • wl (início do nome) → vl

  • ow, ew (fim de nome) → OV, EV

  • ck → k

  • pH → f

  • ž → j

  • š → sh

34 Esta lista de regras de substituição também pode conter mais Exceções freqüentes não cobertas pelas regras genéricas (por exemplo: Джеймс = > ‘James’ para evitar a transliteração básica como ‘Geys’). Exemplos de nomes após esta padronização são:

  • jacques chirac → jak shirak

  • wladimir ustinow → vladimir ustinov

  • vladimir Oustinov → Vladimir Ustinov

  • abdalah džburi → abdalah djburi

  • abdallah joubouri → Abdalah Juburi

  • Malik Saïdoullaïev → Malik disse

  • malikedullajew → Malik disse

transliteração de scripts não latinos

35 para grego, russo e árabe, que não usam o script latino, usamos regras de transliteração e adaptação por escrito à mão para representar nomes com o alfabeto latino. A transliteração consiste em várias regras de substituição que substituem um ou mais caracteres não latinos por um ou mais caracteres latinos. Para grego, por exemplo, as seguintes substituições se aplicam:

  • λ → l

  • θ → th

  • μπ → b

3da após a transliteração, as regras de normalização descritas na seção anterior normalização da ortografia do nome são aplicadas. Os resultados da transliteração e padronização são frequentemente fonéticos (por exemplo, ‘Bil Klinton’, ‘Jak Shirak’, etc.), mas são semelhantes o suficiente para a representação padrão para produzir bons resultados no processo de correspondência fuzzy (ver seção Fuzzy Correspondência de variantes de nome). Os resultados de exemplo para transformações gregas, cirílicas e árabes são:

  • κκφ ανάν (grego) → Kofi Anan

  • кофи Аннан (russo ) → Kofi Anan

  • кофи Анан (búlgaro) → Kofi Anan

  • ßæýí Úäçä (árabe) → kufi anan

  • कोफी अन्नान (hindi) → Kofi Anan

37AC, nós desenvolvemos regras de transliteração para os seguintes sistemas de escrita: Grego, Cirílico (russo, búlgaro e ucraniano), árabe (incluindo farsi e urdu) e Devanagari (Hindi e Nepali). Escrevendo as regras para transliterar o roteiro de Devanagari demorou cerca de 2 horas.

Fuzzy Correspondência de variantes de nomes

38in para identificar variantes de nome potenciais (como aquelas na Tabela 5) Realizamos uma comparação de pares de todos os nomes transliterados e padronizados. Se a semelhança do par de nomes estiver acima de um determinado limite, os nomes são candidatos variantes.

figura 2

Figura 2

Exemplo do processo de correspondência entre um nome cyrílico (russo) e um latim (francês).

39 para o cálculo de similaridade que combinamos três medidas de similaridade. Atualmente, levamos a média das três medidas, mas planejamos avaliar o impacto relativo de cada um deles, a fim de otimizar seu peso relativo para o cálculo de similaridade.

40 As três medidas são baseadas na semelhança da NGRAM de letras : Nós calculamos o cosseno das listas de frequência da letra NGRAM para os dois nomes, separadamente para bigrams e trigramas. A terceira medida é a cosseno de Bigrams com base em strings sem vogais. Não usamos transcrições fonéticas de nomes como estes são relatados para serem menos úteis do que abordagens semelhantes a string (Zobel & Dart, 1995). Além disso, as regras de transcrição fonética são diferentes da linguagem para a linguagem (por exemplo, Chirac seria pronunciada como / kirak /) e encontrar as regras de transcrição para muitas línguas seriam difíceis.

41Figure 2 fornece uma visão geral do processo para comparar um nome francês com sua contraparte russa escrita com letras cirílicas.

variação especial para lidar com o árabe

42standard Árabe escreve vogais longas e muitas vezes omite as curtas. Ao comparar os nomes escritos em árabe com nomes escritos com o alfabeto latino, excluímos vogais do último antes de calcular a semelhança. Por exemplo, a representação padrão interna para o nome Condoleezza Rice é ‘Kondoleza Rice’. O mesmo nome escrito em árabe é ßæäïæáííç ñçíó. O resultado da transliteração e padronização da versão árabe do nome é ‘Konduliza Rais’. O cosseno de Bigrams entre essas duas representações sem vogais (‘Kndlz Rc’ e ‘Kndlz RS’) é bastante alto (0,875) para que os dois nomes escritos com o árabe e os scripts latin sejam identificados com sucesso como variantes de nome.

43Figure 3 resume o processo de correspondência para um nome árabe.

Figura 3

Figura 3

exemplo árabe / Latin nome correspondente

Avaliação de reconhecimento do nome

44Our foco não está na otimização Named Entity Recognition para um idioma, mas sim em encontrar uma abordagem que é facilmente e rapidamente adaptado a novos idiomas. Nós, no entanto, lançamos uma avaliação sobre o desempenho da ferramenta para vários idiomas:

  • 5

45in cada idioma escolhemos uma seleção aleatória de cerca de 100 artigos de jornal. Aplicamos nossa ferramenta de reconhecimento de nome de pessoa. Especialistas listaram todos os nomes de pessoas que estavam presentes no texto. Para cada artigo, comparamos então se cada um dos nomes de pessoas reconhecidos automaticamente também foi selecionado pelo especialista (para obter precisão), e se todos os nomes extraídos manualmente foram encontrados automaticamente (para obter recall). Nós combinamos esses dois valores usando o F-Medidor5.

46we Temos que enfatizar que, ao contrário da avaliação de reconhecimento de nome tradicional, nosso objetivo era identificar a presença ou não presença de um nome no texto, e que não era nossa preocupação Identifique cada uma e todas as menções do nome. Além disso, restringimos nossa avaliação ao reconhecimento de nomes de pessoas, ignorando organizações e topônimos. Os resultados são resumidos na Tabela 6.

Tabela 6: Avaliação do reconhecimento de nome da pessoa em vários idiomas.

idioma

# Regras

# Textos

# nomes

Média

Precision

Média

Lembre-se

Média

F-measure

Inglês

francês

G Erman

Spanish

italiano

russo

o número de regras (isto é. As palavras do gatilho) fornecem uma ideia da cobertura esperada para esta linguagem. A terceira e quarta colunas mostram o tamanho do conjunto de testes (número de textos, número de nomes de pessoas manualmente identificados).

47 Os resultados são menos bons do que para os sistemas de reconhecimento de entidade nomeados que usam parte da fala Os taggers, são otimizados para uma determinada linguagem e não visam essa alta multilingueza. Nossa precisão é, no entanto, razoavelmente alta. Em nosso cenário, onde tentamos detectar nomes em aglomerados de notícias em vez de em artigos individuais, o recall inferior não é um grande problema, porque os nomes são geralmente encontrados em pelo menos um dos artigos para que a pessoa da pessoa para o cluster seja muitas vezes completos.

pontuação 48The baixo recall poderia ser devido à natureza do nosso conjunto de testes heterogêneos: O conjunto inclui não só artigos de muitos domínios diferentes (política, resultados desportivos, discussões de programas de televisão, etc.), mas também de jornais internacionais de todo o mundo (especialmente para os textos de inglês).

sistema 49The tem de analisar artigos, tais como: ‘Fen Naimahawan, do distrito de Mae Ai de Chiang Mai, foi selecionado (…) para representar a Tailândia em um evento de natação (…). Phe está sendo ajudado pela Wanthanee Rungruangspakul, palestrante de direito “. Sem marcação de parte da fala, é difícil adivinhar que ‘Phe Naimahawan’ é um nome de pessoa.No entanto, no mesmo texto, fomos capazes de adivinhar o nome ‘Wanthanee RungruangSpakul’ graças à palavra gatilho ‘conferencista de direito’.

50A menor precisão para o alemão foi previsível como em alemão todo substantivo é maiúsculo, O que muitas vezes resulta no sistema reconhecendo substantivos comuns como nomes próprios. No exemplo: “Die Österreichische Eishockey Nationalmannschaft Bekommt Während Der Heim-Wm Noch Verstärkung”, “Eishey Nationalmannschaft” (Equipe nacional de hóquei no gelo) é incorretamente desencadeada por ‘Österreichische’ (austríaco).

51o relativamente ruim As pontuações para espanhol são devidas a vários fatos. Um deles era que não tivemos nenhum nomes basco em nossas listas de nomes e que muitos nomes bascos foram encontrados no conjunto de testes. Outra razão era que nosso sistema freqüentemente reconheceu apenas a primeira parte dos nomes típicos do composto espanhol. Finalmente, vários nomes de organizações foram classificados pelo algoritmo como nomes de pessoas.

52A explicação para os resultados mais baixos russos é que nosso banco de dados de nome continha apenas uma dúzia de nomes russos para que o sistema tivesse que adivinhar a maioria dos nomes, o que é mais difícil do que procurar nomes conhecidos.

Avaliação da transliteração

53an avaliação imparcial do algoritmo de correspondência variante para nomes escritos com o script latin não é possível porque todas as variantes frequentes já estão armazenadas no banco de dados, e algumas delas já haviam sido verificadas manualmente ou foram adicionados através da pesquisa da Wikipedia (consulte a seção armazenamento de nomes em um banco de dados). Nós só poderíamos testar o sistema em novos nomes, mas para estes não encontraríamos variantes no banco de dados. Testar o sistema em variantes anteriormente invisíveis também não é particularmente útil. Em vez disso, avaliamos a precisão do sistema identificou o equivalente latino dos nomes escritos com letras cirílicas (russas) e árabes. Para este propósito, dois falantes nativos prepararam uma pequena lista de nomes selecionados aleatoriamente que eles encontraram nas notícias do dia. Em seguida, verificamos se o sistema proposto ou não a versão europeia deste nome como o mais semelhante (com um limiar mínimo de 50%). Devemos destacar que cada um dos nomes foi comparado às ortografias de 150.000 outras pessoas.

54 Este teste permite-nos ver se a transliteração, a padronização e a ferramenta correspondente fuzzy funciona corretamente. Além disso, permite-nos validar se o nosso banco de dados contém os nomes mais importantes.

Figura 4

interactive visualização de lugares, nomes e termos encontrados em clusters de notícias.

Identificação de nomes russos

55Out de 53 nomes analisados, apenas um não tinha um equivalente latino no banco de dados, mas o sistema ainda retornou uma proposta errada. Em dois outros casos, a pessoa errada foi identificada. Os 50 nomes restantes foram combinados com a pessoa correta. Tanto a precisão quanto a recordação foram, portanto, 94,3%.

56 A pessoa não está presente em nossa base de dados foi Robert Bradtke (a secretária americana para assuntos europeus e euro-asiáticos). Este nome foi erroneamente combinado com Robert Bartko (um ciclista alemão).

57 Os dois goles falsos foram Jean-Claude Juncker (transliterated como ‘Jan-Klod Yunker’ e combinado com Carsten Jancker), e Heinz Fischer ( Transliterated como ‘Khaynts Fisher’ e combinado com Joschka Fischer).

Identificação de Nome árabe

58All dos 30 nomes selecionados teve um equivalente de script latina no banco de dados. No entanto, dois nomes não foram encontrados e três nomes foram atribuídos à pessoa errada. Os demais 25 nomes foram correspondidos com sucesso. A precisão é, portanto, 89,3% e recordação é de 83,3%.

59among os bons exemplos, Jean-Pierre Raffarin, transliterada como ‘Jan-Biar Rafaran’, ainda era combinada; e da mesma forma Arnold Schwarzenegger, transliterada como ‘Arnuld Shuarznijr’. Mesmo nomes curtos, como jack palha, transliterados como ‘jak stru’, foram encontrados.

60 Os dois nomes não encontrados foram devidos a má transliteração: John Garang tem a variante árabe “þ þñäþ, que foi transliterada como” Jon ” QRNQ ‘e não foi semelhante a quaisquer nomes no banco de dados. O mesmo acontece com “ßáæäí, que foi transliterado como” Jurj Kloni “e deveria ter sido identificado como George Clooney.

61 digitar nomes correspondentes em John McCain, transliteraram como ‘Jon Mak Kin’ (e combinados com Jean Makoun), Colin Powell transliterou como ‘Kuln Baul’, e Michael Jackson como ‘Maikl Jakson’. Uma solução óbvia seria adicionar manualmente as regras de transliteração para os nomes mais comuns (George, John, Michael, etc.).

identificação variante de nome de farsi

  • 6 http://www.bbc.co.uk/worldservice/

6222 nomes (Encontrado a partir de artigos on-line no BBC World Service6) foram selecionados. Todos eles estavam realmente em nossa base de dados, 20 foram encontrados como sendo os mais semelhantes, mas o sistema não encontrou dois nomes (îçäå ç ç ç, Ali Khamenei e à Óú Óú ó, Mohammad Saeedi).

Usando nomes para explorar as coleções de documentos

63 As ferramentas para reconhecer e combinar nomes são parte de um sistema maior para analisar coleções de documentos multilíngües, agrupando documentos relacionados, extraindo informações deles e visualizando alguns

figura 5

Figura 5

Newsexplorer Entrada para Rafiq Hariri

64 os resultados. Um objetivo principal do sistema é permitir que os usuários peneirem grandes quantidades de documentos rapidamente. As seções a seguir mostram aplicativos onde os nomes detectados automaticamente de coleções de notícias multilíngües são usadas.

Visualização de nomes em mapas geográficos

65 para cada cluster de artigos de notícias relacionados detectados pelo sistema de monitor de mídia da Europa (EMM), extraímos nomes de lugar e geramos um mapa interativo mostrando a cobertura geográfica dos artigos (Pouliquen et al., 2004a e 2004b; ver cf. Figura 4). Além disso, uma série de palavras-chave identificadas para o cluster e os nomes detectados neste cluster estão listados no mapa. Para cada aglomerado de artigos de notícias relacionados, os usuários podem, assim, ver vários aspectos de informação de relance. Em uma versão personalizada da ferramenta, os usuários também podem ver no mesmo mapa que de seus termos de pesquisa selecionados manualmente foram encontrados. O mapa é gerado usando gráficos vetoriais escaláveis (SVG) e é interativo para que os usuários possam aumentar o zoom em uma área geográfica específica. O recurso interativo permite além disso, ver o contexto em que lugares, pessoas e termos foram mencionados, e os hiperlinks permitem saltar para passagens de texto específicas. Essa ferramenta de visualização permite até mesmo os usuários obter uma visão geral do conteúdo das coleções de texto escritas em idiomas que podem não entender.

Nome do nome

66in o sistema de notícias do JRC, as informações coletadas durante a análise diária de notícias multilíngües são armazenadas em um banco de dados relacional para que as informações sobre eventos passados, pessoas e lugares possam ser navegou. Para cada cluster, em atualmente oito idiomas, o sistema mantém a faixa quais as pessoas são mencionadas juntas com as quais outras pessoas, países e palavras-chave. Como o banco de dados é atualizado todos os dias, uma rede de links se acumula ao longo do tempo. Por exemplo, o banco de dados pode ser consultado para todos os aglomerados de notícias que mencionam uma certa pessoa, e isso pode dizer quais outras pessoas foram mencionadas nos mesmos clusters. Para cada cluster de notícias, um link para o URL original do artigo mais típico (o Medóide, o mais próximo do cluster centróide) permite que os usuários leiam na história.

Uma interface da Web dá acesso para as informações armazenadas sobre cada pessoa. Esta informação inclui:

  • informações sobre a própria pessoa: nome, nomeiam variantes, fotografia (quando disponível);

  • clusters pessoa foi mencionada em;

  • As palavras do gatilho (títulos) mais frequentemente identificadas para os clusters associados a essa pessoa;

  • uma lista de pessoas associadas, ou seja, aquelas pessoas que são freqüentemente mencionadas nos mesmos clusters de notícias.

67Aditionalalmente, uma lista VIP diária exibe as pessoas mais mencionadas nas notícias de Naquele dia.

68As Os títulos são armazenados no banco de dados, o usuário também pode consultar todas as pessoas com o título ‘presidente georgiano’ e similar. Para detalhes sobre as funcionalidades de navegação, veja Steinberger et al. (2005).

69 maioria das informações é exportada para um site público (http://press.jrc.it/NewsExplorer /), como mostrado na figura 5.

Identificar links entre pessoas

70 Como exibir as pessoas associadas classificadas por frequência, as pessoas que estão nas notícias o tempo todo (por exemplo, George Bush) aparecerão em quase todas as listas. Portanto, introduzimos um fator de ponderação que permite diminuir nomes altamente freqüentes e concentrar-se nesses nomes de pessoas especificamente associados a uma determinada outra pessoa. A fórmula de ponderação usa três fatores: O número de clusters Cada pessoa aparece, o número de clusters comuns duas pessoas aparecem, e o número de “outros associados” cada uma das pessoas tem. A fórmula calcula um peso específico de associação entre duas entidades em nosso banco de dados:

equação n ° 1. Peso de relacionamento entre duas entidades

equação n ° 1. Peso de relacionamento entre duas entidades

71 lugar:

ei: entidade

COE1, E2: co-ocorrência do cluster entre E1 e E2

ICFE1, E2: frequência de cluster inversa de E1 e E2

IASSE1, E2: frequência de associação inversa de E1 e E2

equação n ° 2. Peso de co-ocorrência de cluster

equação n ° 2. Peso de co-ocorrência de cluster

Onde:

CE1, E2: número de clusters onde E1 e E2 ocorrendo juntos

equationn n ° 3. Freqüência inversa de cluster

Equationn ° 3.Freqüência de cluster inversa

Onde:

CE1, E2: Número de clusters onde E1 e E2 aparecem juntos

CEI: número total de clusters ei aparece; i = 1,2

equação n ° 4. Freqüência inversa de associação

equação n ° 4. Freqüência de associação inversa

Onde:

AEI: número total de entidades que ocorrem com EI; I = 1,2

72 A lista ponderada de pessoas associadas mostra nomes bastante diferentes da lista de frequência pura. Para o Secretário-Geral do Conselho da União Europeia, Javier Solana, por exemplo, os nomes mais frequentemente co-ocorrentes são os conhecidos políticos George Bush, Jacques Chirac, Yasser Arafat e Kofi Annan. Na lista ponderada, no entanto, as duas pessoas de topo são Christina Gallach (porta-voz do Solana) e Pierre de Boissieu (Assistente de Solana). Essas duas pessoas são menos conhecidas porque não são mencionadas muito fora do contexto de Javier Solana, mas seus nomes estão intimamente ligados à Solana, pois são tipicamente mencionados nas notícias quando Solana é mencionada.

exibindo mapas de relação

figura 6

Figura 6

Releza mapa mostrando Rafik Hariri e o 20 pessoas mais relacionadas a ele (n = 20)

  • 7 http://www.graphviz.org/

73Cole somos capazes de pescar relações entre pessoas, podemos resumir os links entre as pessoas que usam um “mapa de relações” (veja o mapa da relação de seção). Nós usamos o GraphViz Open Source Graph Graph Visualization Software7, e mais especificamente o utilitário parado com base no algoritmo de Kamada & kawai (1989), que usa um gráfico 2-D para exibir o mais próximo nós juntos. Para uma determinada pessoa a, damos como entrada um gráfico não orientado, onde cada nó é uma pessoa e cada borda é uma relação de co-ocorrência (usando o peso descrito na seção anterior, identificando links entre pessoas). Um gráfico leva como um parâmetro uma pessoa e calcula o gráfico não direto. Um filtro permite exibir apenas as primeiras relações N (essas relações N com o maior peso). Na Figura 5, o usuário pode obter uma visão geral das pessoas que ocorrem junto com a Rafik Hariri. O usuário pode então selecionar outra pessoa e exibir seu gráfico correspondente. Este gráfico é útil para dar uma visão geral rápida de vários grupos de pessoas relacionadas a essa pessoa a.

Conclusão e trabalho futuro

74many das ferramentas mencionadas neste artigo já estão em uso diário, mas outros ainda têm que amadurecer e se estabilizar. A correspondência cruzada de variantes de nomes já produz resultados úteis para um sistema interativo, mas a fusão de variantes de nomes ainda não pode ser totalmente automatizada porque ainda produz erros. Gostaríamos de explorar como o contexto de cluster de dois nomes pode ser usado para melhorar a qualidade da ferramenta de mesclagem de nome. Comparação de temporais como em Shinyama & Sekine (2004) poderia melhorar a precisão.

75we também planejamos dedicar mais tempo para melhorar o próprio reconhecimento. Alguns padrões podem reconhecer nomes de organizações. Gostaríamos de explorar sistemas para automaticamente (ou semi-automaticamente) estender padrões para novos idiomas.

76currently usamos o conteúdo das entradas de Wikipedia apenas para obter links cross-linguais e a foto da fotografia da pessoa . Pesquisas interessantes seriam para minerar esses textos de Wikipédia automaticamente para mais informações. A relação entre as pessoas, por exemplo, pode ser confirmada se uma determinada pessoa é mencionada na página de outra pessoa.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *