Corela (Galego)

Agradecemos a todo o equipo do sector tecnolóxico web no JRC por proporcionarnos os valiosos datos de noticias para probar as ferramentas, así como polo seu soporte técnico .. Tamén queremos agradecer a Carlo Ferigato que nos presentou a varias técnicas de correspondencia borrosa. Agradecemos a Tomaž Erjavec por axudarnos coa linguaxe esloveno e Helen Salak por proporcionar-nos coñecementos sobre Farsi.

Introdución

1Many grandes organizacións supervisan continuamente os medios e, sobre todo, a noticia, para manterse informado sobre eventos de interese e descubrir cales son os medios de comunicación sobre certas persoas, organizacións, ou suxeitos. Ferramentas de software que pre-seleccionar automaticamente as noticias de interese e que pre-procesar a colección de texto escollido simplifica a tarefa repetitiva diaria do seguimento dos medios. Crestan & de loupy (2004) mostrou que a extracción de entidades chamadas e a visualización axudan aos usuarios a navegar en grandes coleccións de documentos de forma máis rápida e eficiente. Isto parece plausible como, segundo Gey (2000), o 30% das palabras de contexto nas noticias son nomes propios.

2in de análise de noticias É importante saber cal é a materia, que se está a falar, onde e cando ocorreron as cousas e como se informou. Este artigo céntrase na aparición de nomes propios nas noticias, é dicir, o que parte da análise. O traballo anterior centrábase en responder ás preguntas que (Pouliquen et al. 2004b), onde (Pouliquen et al. 2004a) e cando (Ignat et al. 2003). Debido ao ambiente de traballo altamente multilingüe na Comisión Europea – unha organización con vinte linguas oficiais: a multilingüidade de ferramentas e o aspecto cruzado son de importancia primordial.

  • 1 demostración dispoñible en http://press.jrc.it/NewsExplorer

3Our análise aplícase á saída do sistema de monitor de medios de Europa EMM (mellor et al., 2002). EMM é un ferramentas de software que monitoriza unha media diaria de 25.000 artigos de noticias en actualmente 30 idiomas, derivados de 800 fontes de noticias internacionais diferentes. Para un subconxunto de preto de 15.000 artigos por día en actualmente oito idiomas, aplicamos técnicas de clustería xerárquica sen supervisión a grupos relacionados con artigos relacionados por separado para cada idioma. A continuación, seguimos os clusters de noticias relacionados dentro da mesma lingua e en seis das linguas (Pouliquen et al. 2004b) 1. As ferramentas de recoñecemento de nome de JRC aplícanse a cada un destes clusters, é dicir, cada grupo de textos relacionados é tratado como un meta-texto, para o que se extraen a persoa e os nomes de lugares xeográficos e identifícanse palabras clave.

4AFter dando algún antecedente de transliteración de nome e referencia ao traballo relacionado (Sección de fondo e traballo relacionado), describimos ferramentas para identificar nomes en texto (sección de recoñecemento de nome adecuado) eo mecanismo para fusionar As variantes de nome, incluídas as escritas en script cirílico, árabe e grego (sección detectando e fusionando variantes de nome). Isto é seguido por resultados de avaliación (avaliación da sección) e por unha sección sobre as relacións de aprendizaxe entre as persoas e a forma en que a información xerada automaticamente sobre nomes pode usarse na análise automática de noticias (sección usando nomes para explorar as coleccións de documentos).

Táboa 1: Descrición xeral do nome de persoa recoñecido en varios idiomas onde as distintas ortografías refírense á mesma persoa.

Táboa 1: Descrición xeral do nome de persoa recoñecido en varios idiomas onde as distintas ortografías refírense á mesma persoa.

A italicia é a palabra desencadeada (s). .

Fondo e traballo relacionado

5 Esta sección dá algúns antecedentes e puntos ás solicitudes de última xeración sobre o recoñecemento de entidades chamado (ver chamado recoñecemento de entidades), Transliteración de nomes persoais eo seu mapeamento con variantes de nome europeo (ver transliteración de nomes propios) e o uso de gráficos que amosan relacións entre persoas (ver mapas de relación).

Recoñecemento de entidade chamado

6Ongulo de entidades chamado (NER) é unha área de investigación coñecida (por exemplo, MUC-6 1995, DAILLE & MORIN 2000), o recoñecemento de entidades multilingües é bastante novo (ACL-MLNER 2003, Poibeau 2003). Ademais, o aspecto cruzado (detectar os mesmos nomes a través de idiomas) adoita estar limitado a pares de linguaxe único ou só pode ser adestrado en texto paralelo.

Os nomes de 7people poden ser recoñecidos no texto (a) a través dun Procedemento de busca Se existe unha lista de nomes coñecidos, (b) analizando o contexto local (por exemplo, “Presidente” apelido de nome), (c) porque parte dunha secuencia de palabras candidatas é un compoñente de nome coñecido (por exemplo, o apelido de “John ‘) , ou (d) porque a secuencia de partes do discurso circundante indica a unha Tagger que un determinado grupo de palabras é probable que sexa un nome. Ás veces, os enfoques de aprendizaxe automática úsanse para recoñecer nomes dentro do seu contexto mirando as palabras que rodean os nomes coñecidos.Para as linguas europeas, é suficiente considerar só palabras en maiúsculas. Outros idiomas, como o árabe, non distinguen o caso. No JRC, actualmente usamos métodos (a) a (c), pero non use etiquetas de parte de voz, porque non temos acceso a tal software para todos os idiomas de interese. Actualmente restrinxemos o recoñecemento aos nomes compostos por menos de dúas partes. Ata agora, o foco estivo nos nomes das persoas, pero tamén recoñecemos algúns nomes de organización.

transliteración de nomes propios

  • 2 Unha procura en Google dá unha idea do uso de cada ortografía como:
    Mohammed: 7,410,000
    Mohamed : 5, (…)

8Transliteration é o proceso de representación de palabras dunha lingua usando o alfabeto ou o sistema de escritura doutra lingua (ARBABI ET AL., 1994). A transliteración úsase para formular conceptos principalmente existentes nunha lingua (por exemplo, a lei de sharia) a outra, ou para informar sobre nomes de persoas, organizacións ou lugares. A transliteración a partir dunha lingua como o árabe diferiría dependendo da lingua estranxeira. Un exemplo é o nome árabe, que podería ser transliterado ao inglés como “Muhamed” ou “Muhammed”, mentres que unha probable transliteración francesa sería ‘Mohamed’ ou ‘Mohammed’2

Especificidade de nomes de persoas de transliteración

9Many Publications, sitios web e esquemas de transliteración existen para as linguas que utilizan alfabetos cirílicos, gregos ou árabes, pero a maioría deles aplícanse a palabras xerais en lugar de nomes persoais. A diferenza fundamental entre transliterar palabras de linguaxe natural e nomes de transliteración é que a pronunciación das palabras normalmente segue algunhas convencións, o que significa que se poden usar as regras de equivalencia lingüística lingüística. Aínda que o mesmo pode ser parcialmente verdadeiro para os nomes da mesma lingua (por exemplo, os nomes rusos en texto ruso), a transliteración faise máis difícil cando os nomes atopados son de orixe internacional, xa que a miúdo é o caso dos artigos de noticias. Por exemplo, nun artigo de noticias ruso é probable que se atopen nomes de orixe francesa, italiana, inglesa ou árabe. Para transliterar tales nomes internacionais de forma eficiente, sería necesario coñecer a fonte do nome porque isto nos di sobre a equivalencia da lingua de destino. Se a orixe do nome Chirac, por exemplo, é coñecida como francés, entón é pronunciada como / ʃI1Ak / e debe ser transcrita como ôíñçß en árabe, ou ширак en ruso. Non obstante, se fose un nome italiano, sería pronunciado como / kirak / e transliterado como ßíñçß en árabe e кирак en ruso.

Tratar con moitos pares de idiomas

10because da linguaxe-dependencia da transliteración, o traballo previo na transliteración de nome automático sempre se realizou para pares de idiomas específicos como o chinés-inglés ou Ruso-inglés, como se pode ver na gran enumeración do traballo anterior en Lee et al. (2005). Aínda que é probable que esta limitación a pares de idiomas específicos produza mellores resultados que o noso enfoque independente de idioma, tales enfoques dependentes da lingua non son unha opción útil no contexto do noso sistema de análise de noticias altamente multilingües, que ten como obxectivo tratar con vinte ou Máis idiomas e onde a lingua orixinal dos nomes normalmente non é coñecida.

desafíos de transliteración

11 A transliteración dos nomes de cada sistema de escritura representa o seu propio desafío. Os scripts cirílicos e gregos parecen ser máis parecidos ao guión latino que son basicamente fonéticos: as letras ou grupos de letras corresponden a sons específicos. Os principais problemas son (a) as equivalencias de letra de fonemas están nunha relación n-a-n (é dicir, unha carta a miúdo pode ser pronunciada de diferentes xeitos e un certo son pode escribirse con letras diferentes) e (b) o inventario de fonemas En diferentes idiomas (e sistemas de escritura) difiere: Se unha lingua non coñece un son, traducirá este son por outro similar. Cando volva a transliterar o nome, a ortografía é probable que estea mal. Por exemplo, o son alemán e inglés para a letra ‘H’ é descoñecido en ruso e é frecuentemente transliterado en ‘Г’, pronunciado / g /. Exemplos son o nome da cidade Heidelberg (Гейдельберг ‘, pronunciado / gejdɛljberk /) e Harry Potter (гари поттер, pronunciado / garipotɛr /). Cando estes nomes se atopan no texto ruso e están de volta ao inglés ou ao alemán, aparecerán así como “Geidelberg” e “Gari Potter” ou similar.

Desafíos específicos para a transliteración árabe

12Amic non ten os sons / p /, / v / e / g /. ‘Paul’ é transcrito como بول / bol /, ‘Valery’ como فاليري (/ faliry /), e ‘globe’ como غلوب (/ 1LO: b /). Polo tanto, un nome como ‘Vladimir Putin’ será transliterado como فلاديمير بوتين (/ fladimi: r buti: n /).

13Transliteración de árabe a linguas que utilizan o alfabeto latino (romanización) ademais é difícil de dificultar que as vocales curtas non sexan normalmente escritas en árabe. Polo tanto, calquera esforzo de romanización normalmente inclúe a vogelación, é dicir, a inserción das vocales curtas na lingua estranxeira (ARBABI, 1994). Como dialectos árabes difieren na pronunciación, a vogelación depende claramente do dialecto. Isto é presuntamente a razón pola que, para a única ortografía do nome árabe Óáíçä, pódense atopar corenta diferentes transliteracións, incluíndo “Salayman”, ‘Seleiman’, ‘Solomon’, ‘Suleiman’ e ‘Sylayman’.

Retos para idiomas que utilizan ideografías

14Transliteración en idiomas cun sistema de escritura ideográfica como o chinés, onde cada símbolo é equivalente a un concepto en lugar de un son, ten que ser abordado un xeito completamente diferente. O chinés ten un sistema de sílabas chamado Pinyin (Swofford 2005), unha combinación de sons iniciais e finais que se poden usar para construír preto de 300 sílabas. Ao transliterar nomes non chineses, busque unha aproximación máis próxima de sílaba a sílaba e para cada sílaba, un idiograma correspondente chinés pode ser escollido da lista de diferentes variantes de ton. A transcrición dun nome inglés ou alemán consistirá así nunha concatenación de sílabas chinesas. Por exemplo, “Beethoven” estaría representado en pinyin como ‘bej-do-fen’.

Métodos para transliterar

15existing Automatic Name Transliteration Systems Utilizar as regras lingüísticas artesanais de man, ou usan métodos de aprendizaxe de máquinas (por exemplo, Lee et al. 2005), ou unha combinación de ambos. Arbabi et al. (1994), por exemplo, utilice as regras lingüísticas e as redes neuronais para a veciña e os nomes árabes de romanización, así como para filtrar as formas de palabras obxecto de aprendizaxe improbable. Lee et al. (2005) Aprende a transliteración de nome a partir de grandes listas de nomes chineses bilingües de nomes propios, usando o algoritmo de maximización de expectativas. Non usan dicionarios de pronunciación ou puntuacións de semellanza fonética xeradas manualmente. No JRC, estamos a usar regras de transliteración elaboradas a man. A saída é entón procesada por novas regras de substitución a man para producir unha representación estándar interna (ver a sección de detección e fusión de variantes de nome).

Mapas de relación

16Cen extractos de ferramenta Nomes da persoa dos documentos, xera implícitamente información útil sobre a co-ocorrencia de persoas. Ben-Dov et al. (2004), que traballou en ambas as relacións de detección e visualizándoas, cita: ‘O coñecemento pode ser creado por inferencia de debuxo do que xa se coñece’ (Davies 1989). Este coñecemento ou información pódese visualizar con mapas de relación.

17in Principio, pódense usar dous métodos para xerar información de relación: (a) a observación da co-aparición de nomes no mesmo texto e (b) o uso de regras sintácticas-semánticas para detectar relacións máis específicas entre persoas. Se dúas persoas son a miúdo mencionadas no mesmo documento (información de co-ocorrencia), é probable que estean nunha determinada relación. Esta relación é difícil de etiquetar, xa que podería ser amizade, rivalidade, relación familiar, pertencente á mesma organización, participación na mesma reunión, etc. Un sistema baseado en regras, por outra banda, sería capaz de detectar máis específico Relacións. Ben-Dov et al. (2004) Compare os dous enfoques e chega á conclusión de que, ao buscar información sobre reunións conxuntas, os algoritmos baseados en co-ocorrencia exhiben unha boa recuperación, pero son malas para a precisión, mentres que o inverso é certo para os métodos baseados en regras. Os autores estiman que as regras de escritura para identificar “A participación nunha reunión común” leva un programador entre unha e tres semanas por unha lingua só, asumindo que está dispoñible un analizador axeitado. A vantaxe do enfoque baseado en co-ocorrencia, usado polo JRC, é que non hai que escribir regras e que as mesmas fórmulas matemáticas poden ser usadas para describir as relacións (co-ocorrencias) en todos os idiomas.

18 O sistema comercial Connivence Maps, por connivencias, presenta relacións entre os actores nas noticias, pero non proporcionan detalles sobre os algoritmos utilizados (ver visitado por última vez 06 / 06/2005).

Recoñecemento de nome axeitado

19at o JRC, engadimos todos os nomes detectados durante a nosa análise diaria de noticias a unha base de datos de nomes coñecidos, de xeito que estes nomes poden entón Recoñecer no futuro por un simple procedemento de busca (método (a) descrito na sección denominada recoñecemento de entidades). Despois dun ano de análise de noticias, a base de datos creceu a uns 150.000 nomes distintos (sen contar variantes do mesmo nome; ver a sección detectando e fusión de variantes de nome). Máis de 500 novos nomes insírense todos os días. Por motivos de rendemento, utilízase un autómatas de Unicode (UTF-8).Un conxunto de expresións regulares xérase para cada entrada da base de datos como entrada á Utilidade Flex (Paxson 1995), que xera o Automaton. Para excluír o recoñecemento de variantes de nome debido a erros de dixitación, o autómata só busca nomes que se atoparon polo menos dúas veces. Ata a data, a ferramenta busca así a preto de 50.000 persoas, que representan preto de 60.000 ortografías diferentes.

Palabras de disparo

20to Adiviñar novos nomes (método (b) descrito na sección chamado recoñecemento de entidades), Unha extensa lista de patróns locais foi desenvolvida nun procedemento de arranque: primeiro escribimos patróns locais sinxelos en Perl para recoñecer nomes nunha colección de tres meses de noticias inglesas, francesas e alemás. A continuación mirou os contextos laterais máis frecuentes á esquerda e á dereita da lista resultante de nomes coñecidos. Só para o inglés, actualmente temos preto de 1.100 patróns locais, composto por títulos (‘Dr.’, ‘Mr’, etc.), adxectivos do país (como ‘estoniano’), profesións (‘Actor’, ‘Tennis’, etc.), patróns específicos (como ‘+ anos de idade’), etc. Referímonos a estes patróns locais como palabras desencadeadas. Para cada lingua engadida, os falantes nativos traducir as listas de patróns existentes e usar o mesmo procedemento de bootstrapping para completar os patróns.

21Todos os patróns permiten que o programa recoñeza novos nomes (é dicir, no ‘o médico estadounidense John Smith’), pero unha lista almacenada de tales patróns tamén é útil para dar aos usuarios información adicional sobre persoas. No exemplo anterior, por exemplo, o usuario verá que John Smith probablemente sexa un médico estadounidense. Cando se usa a miúdo un nome coas mesmas palabras de disparo, as medidas estatísticas pódense usar para cualificar os nomes automaticamente. Por exemplo, George W. Bush será recoñecido como o presidente estadounidense, Rafik Hariri como o “ex primeiro ministro Líbano”, etc.

22 Currentemente o JRC ten regras para os seguintes idiomas: inglés, francés , Alemán, español e italiano. En certa medida temos tamén algúns patróns holandeses, estonianos e eslovenos. Unha primeira versión do ruso está case listo, o árabe está en desenvolvemento. O obxectivo é incluír as vinte linguas oficiais da Unión Europea e os países candidatos.

Táboa 2: dous exemplos de patróns utilizados para recoñecer Tony Blair e Romano Prodi en textos eslovenos

tony (a | o | u | om | em | m | ja | ju | jem)? \ s + blair (a | o | u | om | em | m | ju | jem | ja)

Roman (a | o | u | om | em | m | ju | jem | ja)? \ s + prodi (a | o | u | om | em | m | ju | jem | ja) ?

Xestionar declinación

23in algunhas linguas, especialmente en linguas eslavas e fino-ugrías, ambos os patróns locais e os nomes propios son inflexibles e poden ter sufixos, como Pódese ver no exemplo esloveno ‘Tožba Proti Donaldu Rumsfeldu Zaradi Mučenj’. O autómata para recoñecer nomes ten que permitir unha variedade de sufixos (no exemplo dado, o sufijo ‘u’ foi engadido ao nome de Donald Rumsfeld). Algunhas das regras escritas a man utilizadas no JRC para detectar a persoa e os nomes de lugares consisten en posibles listas de sufixos para cada nome. Outros son máis complexos, por exemplo, utilizando funcións de substitución para detectar o novo Yorgile estoniano como unha inflexión de Nova York ou detectar que o ‘O’ en Romano Prodi forma parte do nome e non debe ser identificado como o “sufixo” Texto esloveno. A táboa 2 mostra dúas listas de sufixos de mostra que están obrigados a detectar nomes coñecidos no texto esloveno. Táboa 3 Lista as regras utilizadas para xerar variantes automaticamente infectadas para nomes rusos na nosa base de datos.

Táboa 3: regras simplificadas para construír un patrón que recoñece todas as posibles declensións dun determinado nome no texto ruso.

Táboa 3: regras simplificadas para construír un patrón que recoñece todas as posibles declensións dun determinado nome no texto ruso.

Almacenamento de nomes nunha base de datos

/ h2>

  • 3 http://en.wikipedia.org/

24 names identificados en calquera dos idiomas analizados almacénanse automaticamente nunha base de datos , xunto con información sobre onde e cando se atopou o nome e con información sobre o idioma do texto. Tamén se almacenan as palabras de disparador que se atopan en torno ao nome. Cada nome distinto é asignado un identificador numérico. Variantes identificadas para o mesmo nome (ver a sección Detectar e fusionar as variantes do nome) están almacenadas co mesmo identificador. Para engadir variantes de nome adicionais, especialmente en linguas non europeas, buscamos automaticamente a enciclopedia en liña gratuíta de Wikipedia3 para todos os nomes da nosa base de datos (cf. figura). Cando existe unha entrada de Wikipedia, engadimos os URL correspondentes á base de datos para que os usuarios poidan atopar información adicional sobre unha determinada persoa. Ademais, copiamos a fotografía da persoa, cando está dispoñible.

25 Cando detectamos novos nomes, usamos unha ferramenta de correspondencia borrosa para detectar automaticamente se o nome é unha variante dun nome xa presente en A base de datos (consulte a sección combinación difusa de variantes de nome).

Táboa 1 demostra o difícil que o recoñecemento de nome pode estar a través das linguas.

A táboa 1 demostra o difícil que o recoñecemento de nome pode estar a través das linguas.

26 tentry para Rafik Hariri na enciclopedia Wikipedia (http://en.wikipedia.org/ wiki / rafik_hariri), e algunhas variantes de nome detectadas automaticamente

detectando e Fusión de variantes de nome

27 Para moitos nomes de persoas, varias variantes úsanse nos medios, non só en linguas (ver a táboa 1), pero moitas veces mesmo dentro da mesma lingua (en 50 artigos de inglés publicados o 14 de abril 2005, atopamos catro ortografías: Rafik Hariri, Rafik al-Hariri, Rafiq Hariri e Rafiq Al-Hariri). Para permitir que os usuarios atopen información sobre certas persoas independentemente da ortografía de nome, pretendemos almacenar todas as variantes de nome xunto cun identificador numérico único.

28 Aumento da similitud da ortografía de nome (descrita na sección combinación difusa de variantes de nome), actualmente fusionamos os candidatos variantes de nome automáticamente se se atopan no mesmo clúster de noticias e se a súa puntuación de semellanza é suficientemente alta (70) %). Como os clusters poden consistir entre 2 e 100 artigos que falan sobre o mesmo evento (para máis detalles véxase Pouliquen et al. 2004b), é moi probable que se atopen dúas variantes do nome da mesma persoa no mesmo clúster.

  • 4 O artigo fixo de feito pretender falar sobre Daniella Cicarelli (‘Recientemente SEPARACIÓN DE LA MODELO (…)

29As o sistema para combinar nomes a través de As linguas aínda están en desenvolvemento, a fusión de variante transversal do nome lingual está feita só se dúas variantes están moi preto (é dicir, semellanza máis do 95%). Cando se detecta un novo nome, a súa semellanza con todos os outros nomes está calculada. Entón o proceso mestura automaticamente nomes similares (ver a táboa 4 para exemplos compilados por un día). Para os outros (semellanza entre o 80% eo 95%), o sistema mostra unha lista de novos nomes similares aos anteriores (variantes candidatos), pedindo un ser humano confirmación antes de fusionalos. Como se mostra nos exemplos da táboa 5, todos os nomes dese día deben ser fusionado. Mesmo o caso de Daniel Cicarelli resultou ser un erro tipográfico para que os dous nomes sexan mesturados4.

30as que actualmente non consideramos o contexto dos nomes, podería ocorrer que o sistema fusiona nomes como ‘Mariana Gonzalez’ (un Venezolano Fencer) e ‘Mariano Gonzalez’ (un fútbol arxentino) xogador). O sistema, polo tanto, permite a intervención manual para corrixir nomes combinados incorrectamente ou fusionar dúas variantes que non foron detectadas automaticamente.

31as mostradas na táboa 4, Táboa 5 e nota ao pé de páxina 4, algúns nomes mal escritos aparecen nas noticias, pero é importante capturalo de todos os xeitos para mellorar a recuperación.

Táboa 4: Lista de nomes extremadamente similares atopados nas noticias dun único día (30 de maio de 2005).

Novo nome

fusionado co nome existente:

Abdüllatif Sener

Abdullatif Sener

ABUBAKAR TANKO

ABOBAKAR TANKO

Allan McDonald

Alan McDonald

bahiya al-hariri

bahia al-hariri

brian herta

Bryan Herta

eid Cabalu

eid kabalu

Hassan Mohamed Nur

Hassan Moha Med Nuur

ismail al-hadithi

ismail al hadithi

johana melka

Johanna Melka

josé Luis lingeri

jose luis lingeri

luis fernández

luis fernandez

Michael HaEfrati

Michael Haephrati

Mohamed Dhia

Mohammed Dhiaa

nikolas sarkozy

Nicolas Sarkozy

salomé zurabishvili

Sal ome zurabishvili

Sergei Brin

Sergey Brin

Stanley Fisher

stanley fischer

surat ikramov

Sourat ikramov

trudi stevenson

trudy stevenson

Werner Schneyder

werner schneider

Estas variantes mestúranse automaticamente.

Táboa 5: Lista de nomes novos e similares (30 de maio de 2005).

Russ novo

Ross novo

Gary Shafer

Gary SHEFFER

Mohammed Dhia

mohammad dhiya

Brian Vilora

Brian Viloria

saad al-harir

saad al-hariri

Pierre Gadonnaix

Pierre Gadonneix

abudullahi yusuf

abdullahi yusuf

… (en total 24 proposicións) …

Daniel Cicarelli

Daniella Cicarelli

Antes de fusionar estas variantes, é necesaria confirmación manual

32due ao uso de diferentes guións en grego, ruso e árabe, a fusión de nomes nestes idiomas Diferente parcialmente do proceso utilizado para as linguas escritas co alfabeto romano.

Normalización da ortografía de nome

As variantes 33NAME a través das linguas adoitan ser debido á omisión de diacríticos. Por exemplo, un xornal británico ás veces pode referirse a François Mitterrand como Francois Mitterrand. Unha serie de outras variacións regulares que observamos son o sinxelo de dobres consonantes, transcricións de F por pH (por exemplo, Ralph Schumacher), uso alternativo de W ou V en nomes rusos (por exemplo, Wladimir vs. Vladimir), grafías alternativas do son ‘u “Como u ou ou, etc. En linguas como lituano, as transcricións son comúns (por exemplo, Buš para Bush). Polo tanto, decidimos desenvolver unha representación estándar interna, ISR, que ten o obxectivo pragmático de vincular as variantes, sen querer facer reclamacións teóricas de ningún tipo.

Antes de calcular unha semellanza entre pares de nomes, todos os nomes están estandarizados usando un conxunto de aproximadamente 30 regras de substitución. Exemplos son:

  • Carácter acentuado → equivalente non acentuado

  • dobre consonante → consonante única

  • ou → u

  • WL (inicio de nome) → VL

  • ow, ew (final) de nome) → ov, eV

  • ck → k

  • pH → f

  • ž → j

  • š → sh

34Esta lista de regras de substitución tamén pode conter máis Excepcións frecuentes non cubertas polas regras xenéricas (por exemplo: Джеймс = > ‘James’ para evitar a transliteración básica como ‘GEAYMS’). Exemplos de nomes despois desta normalización son:

  • jacques chirac → jak shirak

  • wladimir ustinow → vladimir ustinov

  • Vladimir Oustinov → Vladimir Ustinov

  • Abdalah Džburi → Abdalah Djburi

  • Abdallah joubouri → Abdalah Juburi

  • Malik Saïdoullaïev → Malik Saidulaiev

  • Malik Saidullajew → Malik Saidulajev

Transliteración de scripts non latinos

35 para grego, ruso e árabe, que non utilizan o script latino, usamos a transliteración manuscrita e as regras de adaptación para representar nomes co alfabeto latino. A transliteración consiste nunha serie de regras de substitución que substitúen un ou máis caracteres non latinos por un ou máis caracteres latinos. Para o grego, por exemplo, aplicaranse as seguintes substitucións:

  • λ → l

  • θ → th

  • μπ → b

36After A transliteración, aplicaranse as regras de normalización descritas na normalización da sección anterior da ortografía do nome. Os resultados da transliteración e estandarización son a miúdo fonéticos (por exemplo, ‘Bil Klinton’, ‘Jak Shirak’, etc.), pero son o suficientemente similares á representación estándar para producir bos resultados no proceso de correspondencia difusa (ver a correspondencia borrosa variantes de nome). Exemplo Resultados para as transformacións gregas, cirílicas e árabes son:

  • κόφι ανάν (grego) → kofi anan

  • кофи аннан (ruso ) → kofi anan

  • кофи анан (búlgaro) → kofi anan

  • ßæýi ÚÄçä (árabe) → kufi anan

  • कोफी अन्नान (hindi) → kofi anan

37AT O JRC, desenvolvemos regras de transliteración para os seguintes sistemas de escritura: Grego, cirílico (ruso, búlgaro e ucraniano), árabe (incluíndo farsi e urdú) e devanagari (hindi e nepalí). Escribir as regras para transliterar o guión de Devanagari levou preto de 2 horas.

combinación difusa de variantes de nome

38in para identificar variantes de nome potenciais (como os da táboa 5) realizamos unha comparación de parella de todos os nomes transliterados e estandarizados. Se a similitud do par de nomes está por riba dun determinado limiar, os nomes son os candidatos variantes.

Figura 2

Figura 2

exemplo do proceso de correspondencia entre un nome cirílico (ruso) e un nome latino (francés).

39 para o cálculo de semellanza que combinamos tres medidas de semellanza. Actualmente tomamos a media das tres medidas, pero pretendemos avaliar o impacto relativo de cada un deles para optimizar o seu peso relativo para o cálculo de semellanza.

40 As tres medidas están baseadas na letra Ngram semellante : Calculamos o cosine da letra Ngram Listas de frecuencia para ambos os nomes, por separado para Bigrams e para Trigrams. A terceira medida é o coseno de Bigrams baseado en cordas sen vocales. Non usamos transcricións fonéticas de nomes xa que estas son menos útiles que enfoques de cadea (Zobel & Dart, 1995). Ademais, as regras de transcrición fonética son diferentes do idioma ao idioma (por exemplo, Chirac sería en italiano como / kirak /) e atopar as regras de transcrición para moitos idiomas sería difícil.

41figure 2 dá unha visión xeral do proceso para comparar un nome francés coa súa contraparte rusa escrita con letras cirílicas.

Variación especial para xestionar o árabe

42standard O árabe escribe vocales longas e moitas veces omite a curtas. Ao comparar nomes escritos en árabe con nomes escritos co alfabeto latino, por iso eliminamos as vogais desde este último antes de computar a semellanza. Por exemplo, a representación estándar interna para o nome de Rice Condoleezza é “Arroz de Kondoleza”. O mesmo nome escrito en árabe é ßæääæáíòç Ñção. O resultado da transliteración e estandarización da versión árabe do nome é ‘Konduliza Rais’. O coseno de Bigrams entre estas dúas representacións sen vocales (‘kndlz rc’ e ‘kndlz RS’) é bastante elevado (0.875) para que os dous nomes escritos cos guións de árabe e os latinos sexan identificados con éxito como variantes de nome.

43figure 3 resume o proceso de coincidencia dun nome árabe.

Figura 3

Árabe / Nome Latino Exemplo de correspondencia

Avaliación do recoñecemento de nome

44Our Focus non está en optimizar o recoñecemento de entidades chamado por unha lingua, senón en atopar un enfoque que é facilmente e rapidamente adaptado a novas linguas. Non obstante, lanzamos unha avaliación sobre o desempeño da ferramenta para varios idiomas:

  • 5

45in cada idioma que eliximos unha selección aleatoria de aproximadamente 100 artigos de xornais. Aplicamos a ferramenta de recoñecemento de nome da nosa persoa. Os expertos enumeran a todos os nomes de persoa que estaban presentes no texto. Para cada artigo comparamos se cada un dos nomes de persoas recoñecidos automaticamente tamén foi seleccionado polo experto (para obter precisión) e, se todos os nomes extraídos manualmente foron atopados automaticamente (para recuperar). Combinamos aqueles dous valores usando a F-Meatriz5.

46We ten que salientar que, a diferenza da avaliación do recoñecemento de nome tradicional, o noso obxectivo era identificar a presenza ou non presenza dun nome no texto e que non era a nosa preocupación Identificar todas e cada unha das mencións do nome. Ademais, limitamos a nosa avaliación ao recoñecemento de nomes persoais, ignorando organizacións e topónimos. Os resultados resúmense na táboa 6.

Táboa 6: avaliación do recoñecemento de nome persoa en varios idiomas.

idioma

# Regras

# textos

# nomes

media

Precisión

media

LLEVE

media

F-medida

Inglés

francés

g erman

Español

italiano

ruso

O número de regras (I.E.) As palabras de disparo) dan unha idea da cobertura esperada desta lingua. A terceira e cuarta columnas mostran o tamaño do conxunto de probas (número de textos, número de nomes de persoa identificada manualmente).

47 Os resultados son menos bos que os sistemas de recoñecemento de entidades chamados que usan parte de Discurso Os Taggers están optimizados para unha lingua dada e non apuntan a unha multilingüidade tan alta. A nosa precisión é, con todo, razoablemente alta. Na nosa configuración, onde tratamos de detectar nomes en clusters de noticias en lugar de en artigos individuais, a retirada máis baixa non é un gran problema, porque os nomes adoitan atoparse en polo menos un dos artigos para que a persoa sexa a información do clúster a miúdo completan.

48 A puntuación de retirada baixa podería ser debido á natureza do noso conxunto de probas heteroxéneas: o conxunto non só inclúe artigos de moitos dominios diferentes (política, resultados deportivos, discusións de programas de televisión, etc.), pero tamén Desde xornais internacionais de todo o mundo (especialmente para os textos da lingua inglesa).

49 O sistema ten que analizar artigos como: ‘Phe Naimhawan, do distrito de Mae ai de Chiang Mai, foi seleccionado (…) para representar a Tailandia nun evento de natación (…). Phe está a ser axudado por Wanthanee Rungruangspakul, un profesor de lei ‘. Sen marcado de participación, é difícil adiviñar que “Phe Naimahawan” é un nome de persoa.Non obstante, no mesmo texto, puidemos adiviñar o nome ‘Wanthanee Rungruangspakul’ grazas á palabra desencadea ‘Lei de lei’.

50 A menor precisión para o alemán foi predecible como en alemán todos os substantivos é superior, que moitas veces resulta no sistema que recoñece os nomes comúns como nomes propios. No exemplo: “Die Österreichische Eishockey Nationalmannschaft Bekommt Während der Heim-Wm Noch Verstärkung”, ‘Eishockey Nationalmannschaft’ (Ice Hockey National Team) é incorrectamente provocado por ‘Österreichische’ (austríaco).

51 O relativamente malo As puntuacións para o español son debido a varios feitos. Un deles era que non tivésemos ningún nome vasco nas nosas listas de nomes e que se atoparon moitos nomes vascos no conxunto de probas. Outra razón foi que o noso sistema con frecuencia só recoñeceu a primeira parte dos típicos nomes compostos españois. Finalmente, varios nomes de organización foron clasificados polo algoritmo como nomes de persoa.

52 A explicación dos resultados rusos máis baixos é que a nosa base de datos de nomes contiña só unha ducia de nomes rusos para que o sistema tivese que adiviñar a maioría dos nomes, o que é máis difícil que buscar nomes coñecidos.

A avaliación da transliteración

53an a avaliación imparcial

53an a avaliación imparcial do algoritmo de correspondencia variante para os nomes escritos co script latino non é posible porque todas as variantes frecuentes xa están almacenadas na base de datos, e algúns deles xa foron comprobados manualmente ou foron engadidos a través da busca de Wikipedia (ver sección de almacenamento de nomes nunha base de datos). Só poderiamos probar o sistema en novos nomes, pero para estes non atopariamos variantes na base de datos. Probar o sistema nas variantes previamente invisibles tampouco é particularmente útil. No seu canto, avaliamos a precisión do sistema identificado o equivalente latino dos nomes escritos con cartas cirílicas (rusas) e árabes. Para este propósito, dous nativos-falantes prepararon unha pequena lista de nomes seleccionados aleatoriamente que atoparon nas noticias do día. A continuación verificamos se o sistema propuxo ou non a versión europea deste nome como o máis similar (cun limiar mínimo do 50%). Debemos destacar que cada un dos nomes foi comparado coas ortografías de 150.000 persoas con outras persoas.

54Esta proba permítenos ver se a transliteración, a estandarización e a ferramenta de correspondencia borrosa funciona correctamente. Ademais, permítenos validar se a nosa base de datos contén os nomes máis importantes.

Figura 4

Figura 4

Interactive visualización de lugares, nomes e termos atopados nos clusters de noticias.

Identificación variante de nome ruso

555Out de 53 nomes analizados, só un non tiña un equivalente latino no Base de datos, pero o sistema aínda devolveu unha proposta incorrecta. En outros dous casos, identificouse a persoa incorrecta. Os 50 nomes restantes coincidiron con éxito coa persoa correcta. Tanto a precisión como a recuperación foron así o 94,3%.

56 A persoa que non está presente na nosa base de datos foi Robert Bradtke (Secretario Americano de Asuntos Europeos e Eurasianos). Este nome foi equipado con Robert Bartko (un ciclista alemán).

57 Os dous falsos éxitos foron Jean-Claude Juncker (transliterado como “Jan-Klod Yunker” e combinados con Carsten Jancker) e Heinz Fischer ( Transliterado como ‘Khaynts Fisher’ e combinados con Joschka Fischer).

Nome árabe Variante Identificación

58All dos 30 nomes seleccionados tivo un guión latino equivalente na base de datos. Non obstante, non se atoparon dous nomes e tres nomes foron asignados á persoa equivocada. Os 25 nomes restantes foron combinados con éxito. A precisión é polo que o 89,3% e recorda o 83,3%.

59among Os bos exemplos, Jean-Pierre Raffarin, transliterado como “Jan-Biar Rafaran”, aínda estaba igualado; E igualmente Arnold Schwarzenegger, transliterado como ‘Arnuld Shuarznijr’. Incluso os nomes curtos como Jack Straw, transliterados como ‘jak stru’, foron atopados.

60 Os dous nomes que non se atopaban debido a unha mala transliteración: John Garang ten a variante árabe “ìÑÄþ que foi transliterado como ‘jon QRNQ ‘e non era similar a ningún nome na base de datos. O mesmo é certo para’ææ ßáæäí, que foi transliterado como “Jurj Kloni” e debería ser identificado como George Clooney.

Os nomes 61Wrongly combinados foron John McCain, transliterado como ‘Jon Mak Kin’ (e combinados con Jean Makoun), Colin Powell transliterado como ‘Kuln Baul’, e Michael Jackson como ‘Maikl Jakson’. Unha solución obvia sería engadir as regras de transliteración manualmente para os nomes máis comúns (George, John, Michael, etc.).

Farsi Name variante identificación

  • 6 http://www.bbc.co.uk/worldservice/

6222 nomes (Atopáronse de artigos en liña en BBC World Service6). Todos eles estaban realmente na nosa base de datos, 20 foron atopados como o máis similar, pero o sistema non atopou dous nomes (îção ç ی, Ali Khamenei e Ãíï Óú ی ی, Mohammad Saeedi).

Usar nomes para explorar as coleccións de documentos

63 As ferramentas para recoñecer e combinar os nomes forman parte dun sistema máis grande para analizar coleccións de documentos multilingües, agrupando documentos relacionados, extraendo información deles e visualizar algúns de

Figura 5

Figura 5

Entrada de NewSexplorer para Rafiq Hariri

64 os resultados. Un propósito importante do sistema é permitir que os usuarios poidan peneirar grandes cantidades de documentos rapidamente. As seguintes seccións mostran aplicacións onde se utilizan nomes detectados automaticamente a partir de coleccións de noticias multilingües.

Visualización de nomes en mapas xeográficos

65 para cada clúster de artigos de noticias relacionados detectados polo Sistema de Monitor Media Europe (EMM), extraemos os nomes dos lugares e xeramos un mapa interactivo que mostra a cobertura xeográfica dos artigos (Pouliquen et al., 2004a e 2004b; ver cf. Figura 4). Adicionalmente, unha serie de palabras clave identificadas para o clúster e os nomes detectados neste clúster están listados no mapa. Para cada clúster de artigos de noticias relacionados, os usuarios poden ver varios aspectos de información a unha mirada. Nunha versión personalizada da ferramenta, os usuarios tamén poden ver no mesmo mapa que se atoparon os seus termos de busca manualmente seleccionados. O mapa xérase con gráficos vectoriales escalables (SVG) e é interactivo para que os usuarios poidan ampliar unha área xeográfica específica. A característica interactiva permítelles ademais ver o contexto en que se mencionaron os nomes, as persoas e os termos e os hipervínculos permiten saltar a pasaxes de texto específicas. Esta ferramenta de visualización incluso permite aos usuarios obter unha visión xeral dos contidos das coleccións de texto escritas en linguas que non entenden.

Nome do nome do nome

66in o sistema de noticias de JRC, a información recollida durante a análise de noticias multilingüe diaria almacénase nunha base de datos relacional para que a información sobre eventos pasados, persoas e lugares poidan ser navegado. Para cada clúster, en Actualmente, oito idiomas, o sistema mantén a pista que a xente se menciona xunto coa que outras persoas, países e palabras clave. A medida que a base de datos se actualiza todos os días, unha rede de enlaces acumúlase ao longo do tempo. Por exemplo, a base de datos pode ser consultada para todos os clústers de noticias que mencionen a unha determinada persoa e pode dicir que outras persoas foron mencionadas nos mesmos clusters. Para cada clúster de noticias, unha ligazón á URL orixinal do artigo máis típico (o medioide, o máis próximo ao CLUSTER CENTROID) permite aos usuarios ler sobre a historia.

Unha interface web dá acceso á información almacenada sobre cada persoa. Esta información inclúe:

  • información sobre a propia persoa: nome, variantes de nome, fotografía (cando está dispoñible);

  • Clusters isto A persoa foi mencionada;

  • As palabras de disparo (títulos) máis frecuentemente identificados para os clusters asociados a esta persoa;

  • unha lista de persoas asociadas, é dicir, aquelas persoas que mencionan frecuentemente nos mesmos clusters de noticias.

67Aditionalmente, unha lista VIP diaria mostra as persoas máis frecuentemente mencionadas nas noticias de aquel día.

68As os títulos están gardados na base de datos, o usuario tamén pode consultar todas as persoas que teñen o título de ‘presidente xeorxiano’, e similar. Para máis detalles sobre as funcionalidades de navegación, consulte Steinberger et al. (2005).

69most da información exportada a un sitio web público (http://press.jrc.it/NewsExplorer /), como se mostra na Figura 5.

Identificar enlaces entre persoas

70 Cando amosar as persoas asociadas clasificadas por frecuencia, as persoas que están na noticia todo o tempo (por exemplo, George Bush) aparecerán en case todas as listas. Por iso, introducimos un factor de ponderación que permite baixar nomes altamente frecuentes e centrarse nos nomes da persoa que están asociados especialmente a unha outra persoa dada. A fórmula de ponderación usa tres factores: aparece o número de clusters que aparecen cada persoa, aparecen o número de clusters comúns que aparecen dúas persoas e o número de ‘máis asociados’ cada unha das persoas que teñen. A fórmula computa un peso específico de asociación entre dúas entidades na nosa base de datos:

ecuación n ° 1. Peso de relación entre dúas entidades

ecuación n ° 1. Peso de relación entre dúas entidades

71where:

ei: entidade

CoE1, E2: co-ocorrencia de clúster entre E1 e E2

ICFE1, E2: Frecuencia de racimo inversa de E1 e E2

IASSE1, E2: frecuencia de asociación inversa de E1 e E2

ecuación N ° 2. Peso co-ocorrencia de clúster

ecuación n ° 2. Peso de co-ocorrencia de clúster

onde:

CE1, E2: Número de clusters onde se producen E1 e E2

EQUATIONN ° 3. Frecuencia de clúster inversa

equationn ° 3.Frecuencia de clúster inversa

onde:

CE1, E2: Número de clusters onde E1 e E2 aparecen xuntos

CEI: número total de clusters onde aparece EI; i = 1,2

ecuación N ° 4. Frecuencia de asociación inversa

onde:

AEI: número total de entidades que ocuen con EI; i = 1,2

72 A lista ponderada de persoas asociadas mostra nomes bastante diferentes da lista de frecuencias pura. Para o Secretario Xeral do Consello da Unión Europea Javier Solana, por exemplo, os nomes máis frecuentes son os coñecidos políticos George Bush, Jacques Chirac, Yasser Arafat e Kofi Annan. Na lista ponderada, con todo, as dúas persoas de alto rango son Christina Gallach (portavoz de Solana) e Pierre de Boissieu (Asistente de Solana). Estas dúas persoas son menos coñecidas porque non se mencionan moito fóra do contexto de Javier Solana, pero os seus nomes están moi vinculados a Solana xa que normalmente se mencionan nas noticias cando Solana é mencionada.

Mostrar mapas de relación

Figura 6

Figura 6

Mapa de relación Mostrando Rafik Hariri e o 20 persoas máis relacionadas con el (n = 20)

  • 7 http://www.graphviz.org/

73once Somos capaces de con peso relacións entre persoas, podemos resumir as ligazóns entre persoas que utilizan un “mapa de relación” (ver mapas de relación de sección). Utilizamos o GraphViz Open Source Graph Visualization Software7, e máis concretamente a utilidade de Neato baseada no algoritmo de Kamada & Kawai (1989), que usa un gráfico 2-D para mostrar o máis próximo nodos xuntos. Para unha persoa dada a, damos como entrada un gráfico non orientado onde cada nodo é unha persoa e cada bordo é unha relación de co-ocorrencia (usando o peso descrito na sección anterior que identifica as ligazóns entre persoas). Un gráfico leva como parámetro unha persoa e calcula a gráfica non dirixida. Un filtro permite mostrar só as primeiras relacións de n (esas relacións que teñen o maior peso). Na Figura 5, o usuario pode obter unha visión xeral das persoas que se producen xunto con Rafik Hariri. O usuario pode entón seleccionar outra persoa e mostrar o seu gráfico correspondente. Este gráfico é útil para dar unha visión rápida de varios grupos de persoas relacionadas con esta persoa a.

Conclusión e traballo futuro

74Mantil das ferramentas mencionadas neste artigo xa están en uso cotián, pero outros aínda teñen que madurar e estabilizarse. A correspondencia cruzada de variantes de nome xa produce resultados útiles para un sistema interactivo, pero a fusión de variantes de nome aínda non pode ser totalmente automatizada porque aínda produce erros. Queremos explorar como o contexto de clúster de dous nomes pode ser usado para mellorar a calidade da ferramenta de fusión de nome. Comparación de series de tempo como en Shinyama & Sekine (2004) podería mellorar a precisión.

75 tamén planeamos dedicar máis tempo para mellorar o recoñecemento de nome en si. Algúns patróns poderían recoñecer os nomes da organización. Queremos explorar sistemas para automáticamente (ou semi-automaticamente) estender patróns a novos idiomas.

76 Corrente Utilizamos o contido das entradas de Wikipedia só para obter enlaces cruzados e a imaxe da fotografía da persoa .. Investigación interesante sería minar estes textos de Wikipedia automaticamente para obter máis información. A relación entre as persoas, por exemplo, podería ser confirmada se unha persoa dada é mencionada na páxina de outra persoa.

Deixa unha resposta

O teu enderezo electrónico non se publicará Os campos obrigatorios están marcados con *