Corela

Agradecemos a todo el equipo del sector de tecnología web en el JRC por brindarnos los valiosos datos de noticias para probar las herramientas, así como para su soporte técnico. . También queremos agradecer a Carlo Ferigato que nos presentó a varias técnicas de combate difusas. Agradecemos a Tomaž Erjavec por ayudarnos con el idioma esloveno, y Helen Salak por brindarnos conocimientos sobre Farsi.

INTRODUCCIÓN

1 Many Las organizaciones grandes monitorean continuamente los medios de comunicación, y especialmente en las noticias, para mantenerse informado sobre los eventos de interés, y a descubrir qué dicen los medios de comunicación acerca de ciertas personas, organizaciones, o sujetos. Herramientas de software que preseleccionan automáticamente los artículos de noticias de interés y que pre-procesos La recopilación de texto elegida simplifica la tarea repetitiva diaria del monitoreo de los medios. Crestan & de loupy (2004) mostró que la extracción y visualización de la entidad nombrada ayudan a los usuarios a navegar a las colecciones de documentos grandes de manera más rápida y eficiente. Esto parece plausible como, según GEY (2000), el 30% de las palabras con contenidos en noticias son nombres adecuados.

2 en análisis de noticias Es importante saber qué es el tema, a quién se está hablando, dónde y cuando sucedieron las cosas, y cómo se informó. Este documento se centra en la aparición de nombres adecuados en las noticias, es decir, la parte de la OMS del análisis. El trabajo anterior se centró en responder a las preguntas qué (Pouliquen et al. 2004b), donde (Pouliquen et al. 2004a) y cuando (Ignat et al. 2003). Debido al entorno laboral altamente multilingüe en la Comisión Europea, una organización con veinte idiomas oficiales: la multilingüidad de herramientas y el aspecto cruzado son de importancia primordial.

  • 1 demostración disponible en http://press.jrc.it/NewsExplorer

El análisis se aplica a la salida del sistema de monitor de medios de Europa (Best et al., 2002). EMM es un conjunto de herramientas de software que supervisa un promedio diario de 25,000 artículos de noticias en 30 idiomas actualmente, derivando de 800 fuentes de noticias internacionales diferentes. Para un subconjunto de aproximadamente 15,000 artículos por día, actualmente ocho idiomas, aplicamos técnicas de agrupación jerárquica no supervisada para agrupar artículos relacionados por separado para cada idioma. Luego seguimos rastrear los grupos de noticias relacionados dentro del mismo idioma y en seis de los idiomas (Pouliquen et al. 2004b) 1. Las herramientas de reconocimiento de nombre del JRC se aplican a cada uno de estos grupos, es decir, cada grupo de textos relacionados se trata como un meta-texto, para el cual se extraen las personas y los nombres de los lugares geográficos y se identifican las palabras clave.

4 Después de dar algunos antecedentes en la transliteración de nombres y refiriéndose al trabajo relacionado (sección de la sección y trabajo relacionado), describimos las herramientas para identificar los nombres en el texto (sección reconocimiento de nombre adecuado) y el mecanismo para fusionar Variantes de nombre, incluidos los escritos en script cirílico, árabe y griego (sección detectando y fusionando variantes de nombre). A esto le sigue los resultados de la evaluación (evaluación de la sección) y por una sección sobre las relaciones de aprendizaje entre las personas y la forma en que se puede usar la información automáticamente generada en los nombres en el análisis de noticias automáticos (sección usando nombres para explorar las colecciones de documentos).

Tabla 1: Descripción general del nombre de la persona reconocida en varios idiomas donde las distintas ortografías se refieren a la misma persona.

Las cursivas son las palabras de gatillo reconocidas. .

Fondo y trabajo relacionado

5Esta sección Da algunos antecedentes y puntos a las aplicaciones de vanguardia sobre el reconocimiento de entidades denominadas (véase el reconocimiento de entidades nombrado), La transliteración de los nombres de las personas y su asignación con variantes de nombres europeos (consulte la transliteración de nombres propios), y el uso de gráficos que muestran las relaciones entre las personas (ver mapas de relación).

reconocimiento de entidades denominadas

6 Aunque el reconocimiento de entidades nombrado (NER) es un área de investigación conocida (por ejemplo, MUC-6 1995, Daille & Morin 2000), el reconocimiento multilingüe de entidades con nombre es bastante nuevo (ACL-MLNER 2003, Poibeau 2003). Además, el aspecto transversal (detectar los mismos nombres de los idiomas) a menudo se limita a pares de un solo idioma o solo se puede capacitar en texto paralelo.

7People Los nombres pueden ser reconocidos en texto (a) a través de un Procedimiento de búsqueda Si existe una lista de nombres conocidos, (b) analizando el contexto local (por ejemplo, el apellido del nombre del presidente), (c), ya que parte de una secuencia de palabras candidatas es un componente de nombre conocido (por ejemplo, el apellido JOHN ‘) , o (d) porque la secuencia de partes de habilidad circundantes indica a un tagger que es probable que un determinado grupo de palabras sea un nombre. A veces, los enfoques de aprendizaje de la máquina se utilizan para reconocer nombres dentro de su contexto mirando las palabras que rodean los nombres conocidos.Para los idiomas europeos, es suficiente considerar solo palabras en mayúsculas. Otros idiomas, como el árabe, no distinguen el caso. En el JRC, actualmente usamos métodos (a) a (c), pero no usamos etiquetadores de la parte de voz, porque no tenemos acceso a dicho software para todos los idiomas de interés. Actualmente restringimos el reconocimiento a los nombres que consisten en menos dos partes. Hasta ahora, el enfoque ha estado en los nombres de las personas, pero también reconocemos algunos nombres de organización.

Transliteración de nombres propios

  • 2 Una búsqueda en Google da una idea del uso de cada ortografía como:
    Mohammed: 7,410,000
    Mohamed : 5, (…)

8translitreation es el proceso de representar palabras de un idioma utilizando el alfabeto o el sistema de escritura de otro idioma (Arbabi et al., 1994). La transliteración se utiliza para formular conceptos que existen principalmente en un idioma (por ejemplo, la ley de la sharia) en otra, o para informar sobre los nombres de las personas, organizaciones o lugares. La transliteración de un idioma como el árabe se diferiría según el idioma de destino. Un ejemplo es el nombre árabe de íà ajo, que podría transcribirse en inglés como ‘Muhamed’ o ‘Muhammed’, mientras que una tradicional transliteración francesa sería ‘Mohamed’ o ‘Mohammed’.2

La especificidad de los nombres de la persona transliterora

9many Publications, sitios web y esquemas de transliteración existen para los idiomas que utilizan los alfabetos cirílicos, griegos o árabes, pero la mayoría de ellos se aplican a palabras generales en lugar de nombres de personas. La diferencia fundamental entre la transliteración de palabras de lenguaje natural y los nombres de transliteración es que la pronunciación de las palabras normalmente sigue algunas convenciones, lo que significa que se pueden usar las reglas de equivalencia lingüística hecha a mano. Si bien el mismo puede ser parcialmente cierto para los nombres del mismo idioma (por ejemplo, los nombres rusos en el texto ruso), la transliteración se vuelve más difícil cuando los nombres encontrados son de origen internacional, ya que a menudo es el caso en artículos de noticias. Por ejemplo, en un artículo de noticias ruso es probable que se encuentren los nombres de origen francés, italiano, inglés o árabe. Para medirnos de manera eficiente dichos nombres internacionales, sería necesario conocer la fuente del nombre, ya que esto nos dice sobre la equivalencia del lenguaje objetivo. Si el origen del nombre de Chirac, por ejemplo, se conoce como francés, entonces se pronuncia como / ʃi1ak / y debe ser transcrito como ßíñulta en árabe, o ширак en ruso. Sin embargo, si fuera un nombre italiano, se pronunciaría a / kirak / y transliterado como ßíñçß en árabe y кирак en ruso.

Trato con muchos pares de idiomas

10Bease de la dependencia del idioma de la transliteración, el trabajo anterior en la transliteración automática de nombres siempre se ha llevado a cabo para pares de idiomas específicos, como chino-inglés o Ruso-inglés, como se puede ver en la gran enumeración del trabajo anterior en Lee et al. (2005). Aunque es probable que esta limitación a parejas de lenguaje específicos produce mejores resultados que nuestro enfoque más independiente en el lenguaje, tales enfoques dependientes del lenguaje no son una opción útil en el contexto de nuestro sistema de análisis de noticias altamente multilingüe, que apunta a tratar con veinte o Más idiomas y donde normalmente no se conoce el idioma original de los nombres.

Retos de transliteración

11 La transliteración de nombres de cada sistema de escritura plantea su propio desafío. Los scripts cirílicos y griegos parecen ser más similares al guión latino en que, básicamente, son fonéticos: letras o grupos de letras corresponden a sonidos específicos. Los principales problemas son (a) las equivalencias de la letra fonema se encuentran en una relación N-TO-N (es decir, una letra a menudo puede ser pronunciada de diferentes maneras y se puede escribir un cierto sonido con diferentes letras), y (b) el inventario de fonema En diferentes idiomas (y sistemas de escritura) difiere: si un idioma no conoce un sonido, transcribirá este sonido por otro similar. Cuando transliteran el nombre, es probable que la ortografía sea incorrecta. Por ejemplo, el sonido alemán e inglés para la letra ‘H’ es desconocida en ruso y con frecuencia se traduce en ‘г’, pronunciado / g /. Los ejemplos son el nombre de la ciudad heidelberg (гейдельберг ‘, pronunciado / gejdɛljberk /) y harry potter (гарри поттер, pronunciado / garipotɛr /). Cuando estos nombres se encuentran en el texto ruso y están transliterados en inglés o alemán, aparecerán así como ‘Geidelberg’ y ‘Gari Potter’, o similar.

Los desafíos específicos para la transliteración árabe

12arabic no tienen los sonidos / p /, / v / y / g /. ‘Pablo’ se transcribe como بول / BOL /, ‘Valery’ como فاليري (/ FaTiry /), y ‘Globe’ como غلوب (/ 1LO: B /). Por lo tanto, un nombre como ‘Vladimir Putin’ se transcribirá como فلاديمير بوتين (/ FLADIMI: R Buti: N /).

13translitreation de árabe a idiomas con el alfabeto latino (romanización), además, se hace difícil por el hecho de que las vocales cortas generalmente no se escriben en árabe. Por lo tanto, cualquier esfuerzo de romanización, por lo tanto, incluye la vocalización, es decir, la inserción de las vocales cortas en el idioma de destino (Arbabi, 1994). A medida que los dialectos árabes difieren en la pronunciación, la vocalización depende claramente del dialecto. Esta es presumiblemente, la razón por la que, para la ortografía única del nombre árabe, óáííãçä, se pueden encontrar cuarenta translitaciones diferentes, incluyendo ‘salayman’, ‘SELIMAN’, ‘Solomon’, ‘Suleiman’ y ‘Sylayman’.

DESAFÍOS PARA LIGNIFICADOS QUE UTILIZANDO IDEGROS

14Transliteración en idiomas con un sistema de escritura ideográfico como Chinese, donde cada símbolo es equivalente a un concepto en lugar de a un sonido, tiene que ser abordado en Una forma completamente diferente. Chino tiene un sistema de sílabas llamado Pinyin (SWOFFORD 2005), una combinación de sonidos iniciales y finales que se pueden usar para construir alrededor de 300 sílabas. Cuando la transliteración de nombres que no son chinos, una aproximación más cercana-sílaba a sílaba se levantó, y para cada sílaba correspondiente ideograma chino puede ser elegido de la lista de variantes de tono diferente. La transcripción de un nombre inglés o alemán constará así de una concatenación de sílabas chinas. Por ejemplo, ‘Beethoven’ se representaría en Pinyin como ‘BEJ-DO-FEN’.

Métodos para la transliteración

15Esistán Los sistemas de transliteración de nombres automáticos usan reglas lingüísticas hábiles, o usan métodos de aprendizaje de la máquina (por ejemplo, Lee et al. 2005), o una combinación de ambos. Arbabi et al. (1994), por ejemplo, use reglas lingüísticas y redes neuronales a las vocales y los nombres árabes de Romanise, así como para filtrar los formularios de Word Target en poco generados. Lee et al. (2005) Aprenda la transliteración de nombres de las grandes listas bilingües chinas-en inglés de los nombres adecuados, utilizando el algoritmo de maximización de la expectativa. No usan diccionarios de pronunciación o puntajes de similitud fonética generados manualmente. En el JRC, estamos utilizando reglas de transliteración artesanal a mano. La producción se procesa luego mediante reglas de sustitución más hechas a mano para producir una representación estándar interna (consulte la sección detectando y fusionando variantes de nombre).

Mapas de relación

16 Cuando se extraen extractos de herramienta Nombres de personas de documentos, generan implícitamente información útil sobre la cooperación de personas. Ben-Dov et al. (2004), quien trabajó en ambos relaciones detectando y visualizándolos, cita: «el conocimiento se puede crear al dibujar inferencia de lo que ya se conoce» (Davies 1989). Dicho conocimiento o información se puede visualizar con mapas de relaciones.

principio 17in, dos métodos pueden ser utilizados para generar información de relación de: (a) la observación de la co-ocurrencia de nombres en el mismo texto, y (b) el uso de reglas sintáctico-semánticas para detectar Relaciones más específicas entre personas. Si dos personas se mencionan a menudo en el mismo documento (información de co-ocurrencia), es probable que estén en una determinada relación. Esta relación es difícil de etiquetar, ya que podría ser la amistad, la rivalidad, la relación familiar, que pertenece a la misma organización, la participación en la misma reunión, etc. Un sistema basado en reglas, por otro lado, podría detectar más específicos. relaciones. Ben-Dov et al. (2004) Compare ambos enfoques y llegue a la conclusión de que, al buscar información sobre reuniones conjuntas, los algoritmos basados en la coacurencia exhiben un buen recuerdo, pero son malos para la precisión, mientras que el inverso es cierto para los métodos basados en reglas. Los autores estiman que las reglas de escritura para identificar la «participación en una reunión común» realizan un programador entre una y tres semanas solo para un idioma, asumiendo que un analizador adecuado está disponible. La ventaja del enfoque basado en la coacurencia, utilizado por el JRC, es que no se deben escribir reglas y que se puedan usar las mismas fórmulas matemáticas para describir las relaciones (co-ocurrencia) en todos los idiomas.

18El sistema comercial ConniVence Maps, con Connivencias, presenta relaciones entre actores en las noticias, pero no proporcionan detalles sobre los algoritmos utilizados (consulte Última visitada 06 / 06/2005).

Reconocimiento de nombre adecuado

19AT El JRC, agregamos todos los nombres detectados durante nuestro análisis diario de noticias a una base de datos de nombres conocidos, para que estos nombres puedan entonces. Ser reconocido en el futuro mediante un procedimiento de búsqueda simple (Método (a) descrito en la Sección nombrada Reconocimiento de Entidades). Después de un año de análisis de noticias, la base de datos ha crecido a aproximadamente 150,000 nombres distintos (no contando variantes del mismo nombre; consulte la sección detectando y fusionando variantes). Más de 500 nombres nuevos se insertan todos los días. Por razones de rendimiento, se utiliza un autómata de estado finito compatible con Unicode (UTF-8).Se genera un conjunto de expresiones regulares para cada entrada de la base de datos como entrada a la utilidad Flex (PAXSON 1995), que genera el autómata. Para excluir el reconocimiento de las variantes de nombre debido a los errores de escritura, el automatón solo busca nombres que se encontraron al menos dos veces. Hasta la fecha, la herramienta busca así alrededor de 50,000 personas, lo que representa aproximadamente 60,000 ortografías diferentes.

palabras de activación

20 para adivinar nuevos nombres (método (b) descrito en la sección Nombrado reconocimiento de entidades), Se desarrolló una extensa lista de patrones locales en un procedimiento de flejado: primero escribimos patrones locales simples en PERL para reconocer los nombres en una colección de tres meses de noticias de inglés, francés y alemán. Luego miramos los contextos laterales a la izquierda y derecha más frecuentes de la lista resultante de nombres conocidos. Solo para inglés, actualmente tenemos alrededor de 1,100 patrones locales, que consisten en títulos (‘Dr.’, ‘Sr.’, etc.), adjetivos de país (como ‘estonio’), profesiones (‘actor’, ‘tenista’, )), patrones específicos (como ‘+ año de edad’), etc. Nos referimos a estos patrones locales como palabras de activación. Para cada idioma agregado, los oradores nativos traducen las listas de patrones existentes y use el mismo procedimiento de arranque para completar los patrones.

21 Los patrones permiten que el programa reconozca nuevos nombres (es decir, en ‘el médico estadounidense John Smith’), pero una lista almacenada de tales patrones también es útil para brindar a los usuarios información adicional sobre las personas. En el ejemplo anterior, por ejemplo, el usuario verá que John Smith probablemente es un médico estadounidense. Cuando se usa un nombre con las mismas palabras de activación, se pueden usar medidas estadísticas para calificar los nombres automáticamente. Por ejemplo, George W. Bush será reconocido como el presidente estadounidense, Rafik Hariri, como el «ex primer ministro libanés», etc.

22 en la finalidad, el JRC tiene reglas para los siguientes idiomas: inglés, francés , Alemán, español e italiano. En cierta medida, también tenemos algunos patrones holandeses, estonios y eslovenos. Una primera versión de Rusia está casi lista, el árabe está en desarrollo. El objetivo es incluir a los veinte idiomas oficiales de la Unión Europea y los países candidatos.

Tabla 2: Dos ejemplos de patrones utilizados para reconocer a Tony Blair y Romano Prodi en textos eslovenos

tony (a | o | u | om | em | m | ja | ju | jem)? \ s + blair (A | o | u | om | em | m | ju | jem | ja)

romano (a | o | u | om | em | m | ju | jem | ja)? \ s + prodi (a | o | u | om | em | m | ju | jem | ja) ?

Trato con la Declinación

23 En algunos idiomas, especialmente en los idiomas eslavo y Finno-UGRIC, tanto los patrones locales como los nombres propios se inflexen y pueden tener sufijos, como Se puede ver en el ejemplo esloveno ‘tožba proth donaldu rumsfeldu zaradi mučenj’. El autómata para reconocer los nombres, por lo tanto, tiene que permitir una variedad de sufijos (en el ejemplo dado, el sufijo ‘U’ se agregó al nombre Donald Rumsfeld). Algunas de las reglas escritas a mano utilizadas en el JRC para detectar a la persona y los nombres de lugar simplemente consisten en listas de sufijos posibles para cada nombre. Otros son más complejos, por ejemplo, utilizando las funciones de sustitución para detectar el nuevo Yorgile de Estonia como una inflexión de Nueva York o detectar que la ‘O’ en Romano Prodi es parte del nombre y no debe identificarse como el ‘sufijo O’-sufijo Texto esloveno. La Tabla 2 muestra dos listas de sufijo de muestra que se requieren para detectar nombres conocidos en texto esloveno. La Tabla 3 enumera las reglas utilizadas para generar variantes infladas automáticamente para los nombres rusos en nuestra base de datos.

Tabla 3: Reglas simplificadas para construir un patrón que reconoce todas las declinaciones posibles de un nombre determinado en el texto ruso.

Tabla 3: Reglas simplificadas para construir un patrón que reconoce todas las declinaciones posibles de un nombre determinado en el texto ruso.

almacenamiento de nombres en una base de datos

  • 3 http://en.wikipedia.org/

24 nombres identificados en cualquiera de los idiomas analizados se almacenan automáticamente en una base de datos , junto con la información sobre dónde y cuándo se encontró el nombre y con información sobre el idioma del texto. Las palabras de activación que se encuentran alrededor del nombre también se almacenan. Cada nombre distinto se le asigna un identificador numérico. Las variantes identificadas para el mismo nombre (consulte la sección Detección y fusión de variantes de nombre) se almacenan con el mismo identificador. Para agregar variantes de nombre adicionales, especialmente en idiomas no europeos, buscamos automáticamente la Enciclopedia Online de Wikipedia3 gratuita para todos los nombres en nuestra base de datos (cf. Figura). Cuando existe una entrada de Wikipedia, agregamos las URL correspondientes a la base de datos para permitir que los usuarios encuentren información adicional sobre una persona determinada. Además, copiamos la fotografía de la persona, cuando está disponible.

25 Cuando detectamos nuevos nombres, usamos una herramienta de coincidencia difusa para detectar automáticamente si el nombre es una variante de un nombre ya presente en La base de datos (consulte la sección Fuzzy coincidencia de variantes de nombre).

La tabla 1 demuestra lo difícil que puede ser el reconocimiento de nombre en todos los idiomas.

La Tabla 1 demuestra lo difícil que puede ser el reconocimiento de nombre en todos los idiomas.

26entry para Rafik Hariri en la enciclopedia de Wikipedia (http://en.wikipedia.org/ wiki / rafik_hariri), y algunas variantes de nombre detectaron automáticamente

detectando y Fusión de los nombres variantes

27 Para muchos nombres de personas, se utilizan varias variantes en los medios, no solo en los idiomas (consulte la Tabla 1), pero a menudo incluso dentro del mismo idioma (en 50 artículos en inglés publicados el 14 de abril. 2005, encontramos cuatro ortografías: Rafik Hariri, Rafik al-Hariri, Rafiq Hariri y Rafiq al-Hariri). Para permitir a los usuarios encontrar información sobre ciertas personas de forma independiente de la ortografía del nombre, apuntamos a almacenar todas las variantes de nombre junto con un identificador numérico único.

28USINGUSING LA SIMÁTENIDAD DE NOMBRE ORTOGRAFÍA (descrito en la sección Fuzzy Coincidencia de variantes de nombre), actualmente fusionamos a los candidatos de variante de nombre automáticamente si se encuentran en el mismo clúster de noticias y si su puntaje de similitud es lo suficientemente alta (70 %). A medida que los grupos pueden consistir entre 2 y 100 artículos que hablan sobre el mismo evento (para obtener más información, consulte Pouliquen et al. 2004b), es muy probable que se encuentren dos variantes del mismo nombre en el mismo clúster.

  • 4 El artículo pretendía hablar de DANIELLA CICARELLI (‘Reciente Separejion de la Modelo (…)

29A El sistema para igualar los nombres a través de Los idiomas aún están en desarrollo, la combinación de variante de nombre de lingüe cruzada se realiza actualmente solo si dos variantes están muy cerca (es decir, la similitud más del 95%). Cuando se detecta un nuevo nombre, se calcula su similitud con todos los demás nombres. Luego el proceso Combina automáticamente nombres similares (consulte la Tabla 4 para ejemplos compilados por un día). Para los demás (similitud entre el 80% y el 95%), el sistema muestra una lista de nuevos nombres similares a los anteriores (variantes candidatos), pidiendo un humano Confirmación antes de fusionarlos. Como se muestra en los ejemplos en la Tabla 5, todos los nombres para ese día deben ser fusionado Incluso el caso de Daniel CicoCarelli resultó ser un error tipográfico para que los dos nombres deban ser fusionados4.

30AS No consideramos actualmente el contexto de los nombres, podría suceder que el sistema combina nombres como ‘Mariana González’ (un esgrimidor venezolano) y ‘Mariano Gonzalez’ (un fútbol argentino jugador). Por lo tanto, el sistema permite la intervención manual para corregir los nombres fusionados incorrectamente o para fusionar dos variantes que no se han detectado automáticamente.

31,000 Se muestra en la Tabla 4, Tabla 5 y Nota a pie de página 4, algunos nombres mal escritos aparecen en las noticias, pero es importante capturarlos de todos modos para mejorar el retiro.

Tabla 4: Lista de nombres extremadamente similares encontrados en las noticias de un solo día (30 de mayo de 2005).

Nuevo nombre

Fusionado con el nombre existente:

abdüllatif sener

abdullatif se sener

Abubakar Tanko

aboubakar Tanko

Allan McDonald

alan mcdonald

bahiya al-hariri

Bahia al-Hariri

brian herta

Bryan HERTA

eid cabalu

eid kabalu

HASSAN MOHAMED NUR

Hassan Moha med nuur

ismail al-hadithi

ismail al hadithi

Johana Melka

Johanna Melka

josé Luis Lingeri

JOSE LUIS LINGERI

luis fernández

LUIS FERNANDEZ

michael haefrati

michael haeprati

mohamed dhia

Mohammed Dhiaa

nikolas sarkozy

nicolas sarkozy

salomé zurabishvili

sal ome zurabishvili

sergei brin

sergey brin

stanley fisher

stanley fischer

Surat Ikramov

Sourat Ikramov

trudi stevenson

{{} /

Werner Schneyder

Estas variantes se fusionan automáticamente.

Tabla 5: Lista de nuevos nombres nuevos (30 de mayo de 2005).

brian vilora

DANIELLA CICARELLI



russ young

ROSS Young

Gary shafer

Gary Sheffer

Mohammed DHIA

MOHAMMAD DHIYA

brian viloria

saad al-harir

saad al-hariri

PIERRE GADONNAIX

Pierre Gadonneix

abudullahi yusuf

abdullahi yusuf

… (En total, 24 proposiciones) …

DANIEL CICARELLI

Antes de fusionar estas variantes, se requiere confirmación manual.

32DUE al uso de diferentes scripts en griego, ruso y árabe, la fusión de nombres en estos idiomas Parcialmente difiere del proceso utilizado para los idiomas escritos con el alfabeto romano.

La normalización de la ortografía de nombre

33name variantes a través de los idiomas a menudo se debe a la omisión de los diacríticos. Por ejemplo, un periódico británico a veces puede referirse a François Mitterrand como Francois Mitterrand. Una serie de variaciones regulares adicionales observamos son la conexión de doble consonantes, las transcripciones de F por pH (por ejemplo, Ralph Schumacher), el uso alternativo de W o V en los nombres rusos (por ejemplo, Wladimir vs. Vladimir), ortografía alternativa del sonido ‘u ‘Como U o Ou, etc. En idiomas tales como lituano, las transcripciones son comunes (por ejemplo, BUŠ para Bush). Por lo tanto, decidimos desarrollar una representación estándar interna, ISR, que tiene el objetivo pragmático de vincular las variantes, sin querer hacer reclamaciones teóricas de cualquier tipo.

Antes de calcular una similitud entre pares de nombres, todos los nombres se estandarizan utilizando un conjunto de aproximadamente 30 reglas de sustitución. Los ejemplos son:

  • carácter acentuado → equivalente no acentuado

  • doble consonante → consonante único

  • ou → u

  • wl (inicio del nombre) → vl

  • OW, EW (Fin del nombre) → OV, EV

  • CK → K

  • Ph → F

  • ž ž →

  • \ li>

ul ^ {}

\ ul Lista de reglas de sustitución también puede contener lo más Excepciones frecuentes no cubiertas por las reglas genéricas (por ejemplo: Джеймс = > ‘James’ para evitar la transliteración básica como ‘GeyMS’). Ejemplos de nombres después de esta estandarización son:

  • jacques chirac → jak shirak

  • wladimir ustinow → vladimir ustinov

  • Vladimir Oustinov → Vladimir Ustinov

  • abdalah džburi → abdalah djburi

  • abdallah joubouri → Abdalah Juburi

  • Malik Saïdoullaïev → Malik Sellumaiev

  • Malik SaelluMaJew → Malik SelluaJev

Transliteración de los scripts no latinos

35 para griego, ruso y árabe, que no usan el script latino, utilizamos la transliteración y las reglas de adaptación escritas a mano para representar nombres con el alfabeto latino. La transliteración consiste en una serie de reglas de sustitución que reemplazan a uno o más caracteres no latinos por uno o más caracteres latinos. Para griego, por ejemplo, se aplican las siguientes sustituciones:

  • λ → l

  • θ → TH

  • μπ → B

Los resultados de la transliteración y estandarización son a menudo fonéticos (por ejemplo, ‘BIL Klinton’, ‘Jak Shirak’, etc.), pero son lo suficientemente similares a la representación estándar para producir buenos resultados en el proceso de coincidencia difusa (ver la sección Fuzzy Matching of Variantes de nombre). Los resultados de los resultados para las transformaciones griegas, cirílicas y árabes son:

  • κόφι ανάν (griego) → kofi anan

  • кофи аннан (ruso → KOFI ANAN

  • Кофи Анан (Búlgaro) → Kofi Anan

  • ßæí ÚÄÇÄ (Árabe) → Kufi Anan

  • कोफोफ अन्नान (hindi) → kofi anan

37AT El JRC, hemos desarrollado reglas de transliteración para los siguientes sistemas de escritura: Griego, cirílico (ruso, búlgaro y ucraniano), árabe (incluyendo Farsi y Urdu) y Devanagari (Hindi y Nepalí). Escribiendo las reglas para transliterar El script Devanagari tomó aproximadamente 2 horas.

FUZZY MOBRIFICACIÓN DE NOMBRES VARIANTES

38IR Pedir identificar variantes de nombre potenciales (como las de la Tabla 5) Llevamos a cabo una comparación de parejas de todos los nombres transliterados y estandarizados. Si la similitud del par de nombres está por encima de un cierto umbral, los nombres son candidatos variantes.

Figura 2

Figura 2

Ejemplo del proceso de coincidencia entre un nombre cirílico (ruso) y un nombre latino (francés).

39 Para el cálculo de similitud que combinamos tres medidas de similitud. Actualmente tomamos el promedio de las tres medidas, pero planeamos evaluar el impacto relativo de cada uno de ellos para optimizar su peso relativo para el cálculo de la similitud.

40Las tres medidas se basan en la similitud de la letra de ngram : Calculamos el coseno de la letra de las listas de frecuencia de la frecuencia de los nombres, por separado para los bigrams y para los trigramas. La tercera medida es el coseno de los bigranos basados en cadenas sin vocales. No utilizamos transcripciones fonéticas de nombres, ya que se informa que son menos útiles que los enfoques similares a las cuerdas (Zobel & DART, 1995). Además, las reglas de transcripción fonética son diferentes del lenguaje al lenguaje (por ejemplo, Chirac en italiano se pronunciarán como / kirak /) y encontrar las reglas de transcripción para muchos idiomas serían difíciles.

41Figure 2 ofrece una visión general del proceso para comparar un nombre francés con su contraparte ruso escrito con letras cirílicas.

Variación especial para lidiar con el árabe

42standard El árabe escribe vocales largas y, a menudo, omite las cortas. Al comparar los nombres escritos en árabe con nombres escritos con el alfabeto latino, por lo tanto, eliminamos las vocales de este último antes de calcular la similitud. Por ejemplo, la representación interna estándar para el nombre Condoleezza Rice es ‘Kondoleza Rice’. El mismo nombre escrito en árabe es ßæÄïæÁÍòÇ ÑÇíló. El resultado de la transliteración y estandarización de la versión árabe del nombre es ‘Konduliza Rais’. El coseno de los bigramas entre estas dos representaciones sin vocales (‘KNDLZ RC’ y ‘Kndlz RS’) es bastante alto (0.875) para que los dos nombres escritos con el árabe y los scripts latinos se identifiquen correctamente como variantes de nombre.

43Figure 3 resume el proceso de correspondencia para un nombre árabe.

Figura 3

Figura 3

Ejemplo de coincidencia de nombre árabe / latino

Evaluación del reconocimiento de nombre

44Our Enfoque no está en optimizar el reconocimiento de la entidad nombrada por un idioma, sino en encontrar un enfoque que sea Fácil y rápidamente adaptado a los nuevos idiomas. No obstante, hemos puesto en marcha una evaluación sobre el rendimiento de la herramienta para varios lenguajes:

  • 5

45º en cada idioma se optó por una selección aleatoria de unos 100 artículos de periódico. Aplicamos la herramienta de reconocimiento de nombres de nuestra persona. Los expertos enumeraron a todos los nombres de la persona que estaban presentes en el texto. Para cada artículo, nos comparamos si cada uno de los nombres de la persona reconocidos automáticamente también fue seleccionada por el experto (para obtener precisión), y si todos los nombres extraídos manualmente también se encontraron automáticamente (para obtener el recuerdo). Combinamos esos dos valores utilizando la F-MEX5.

46 Tenemos que enfatizar que, a diferencia de la evaluación de reconocimiento de nombre tradicional, nuestro objetivo era identificar la presencia o la no presencia de un nombre en el texto, y que no era nuestra preocupación para Identificar todas y cada una de las menciones del nombre. Además, restringimos nuestra evaluación al reconocimiento de los nombres de las personas, ignorando las organizaciones y los topónimos. Los resultados se resumen en la Tabla 6.

TABLA 6: Evaluación del reconocimiento de nombre de persona en varios idiomas.

El número de reglas (es decir, Palabras de activación) Da una idea de la cobertura esperada para este idioma. Las columnas tercera y cuarta muestran el tamaño del conjunto de pruebas (número de textos, número de nombres de personas identificadas manualmente).

47Los resultados son menos buenos que para los sistemas de reconocimiento de entidades denominados que utilizan parte de discurso Los etiquetadores, están optimizados para un idioma determinado, y no apuntan a una multilingüe de alta alta. Nuestra precisión es, sin embargo, razonablemente alta. En nuestro entorno, donde intentamos detectar nombres en clústeres de noticias en lugar de en artículos individuales, el recuerdo más bajo no es un problema importante, porque los nombres generalmente se encuentran en al menos uno de los artículos para que la información de la persona para el clúster sea a menudo completo.

48El puntuación baja Recall podría ser debido a la naturaleza de nuestro equipo de prueba heterogénea: El conjunto no sólo incluye los artículos de muchos dominios diferentes (política, resultados deportivos, las discusiones de los programas de televisión, etc.), sino también de los periódicos internacionales de todo el mundo (especialmente para los textos de idioma inglés).

49El sistema tiene que analizar artículos tales como: ‘Phe Naimahawan, del distrito de MAE AI de Chiang Mai, ha sido seleccionado (…) para representar a Tailandia en un evento de natación (…). PHE está siendo ayudado por Wanthanee RungruangSpakul, un profesor de derecho. Sin un etiquetado de la parte de voz, es difícil adivinar que ‘Phe Naimahawan’ es un nombre de persona.Sin embargo, en el mismo texto, pudimos adivinar el nombre ‘Wanthanee Rungruangspakul’ gracias a la palabra de gatillo «profesor de derecho».

50La menor precisión para el alemán fue predecible como en alemán todos los sustantivos están superados, que a menudo resulta en el sistema que reconoce los sustantivos comunes como nombres propios. En el ejemplo: «Die Österreichische Eishockey NationalMannschaft Bekommt Während der Heim-Wm Noch Verstärkung», ‘Eishockey Nationalmannschaft’ (Equipo Nacional de Hockey sobre hielo) (Ice Hockey National Team) está equivocada erróneamente por ‘Österreichische’ (austriaco).

51El relativamente malo Las puntuaciones para español se deben a diversos hechos. Uno de ellos fue que no teníamos ningún primer nombre de los vascos en nuestras listas de nombres y que se encontraron muchos nombres vascos en el conjunto de pruebas. Otra razón fue que nuestro sistema con frecuencia solo reconoció la primera parte de los típicos nombres de los compuestos españoles. Finalmente, varios nombres de la organización fueron clasificados por el algoritmo como nombres de personas.

52La explicación de los resultados más bajos de Rusos, principalmente es que nuestra base de datos de nombres contenía solo una docena de nombres rusos para que el sistema tenga que adivinar la mayoría de los nombres, lo cual es más difícil que mirar los nombres conocidos.

Evaluación de la transliteración

53AN Evaluación imparcial del algoritmo de combinación de variante para nombres escritos con el script latino no es posible porque todas las variantes frecuentes ya están almacenadas en la base de datos, y algunas de ellas ya habían sido revisadas manualmente. O se agregaron a través de la búsqueda Wikipedia (consulte la sección Almacenamiento de nombres en una base de datos). Solo podríamos probar el sistema en nombres nuevos, pero para estos no encontraríamos variantes en la base de datos. Pruebas El sistema en variantes anteriormente invisibles tampoco es particularmente útil. En su lugar, evaluamos cuán con precisión el sistema identificó el equivalente latino de los nombres escritos con letras cirílicas (rusas) y árabes. Para este propósito, dos hablantes nativos prepararon una breve lista de nombres seleccionados al azar que encontraron en la noticia del día. Luego verificamos si el sistema propuso o no la versión europea de este nombre como el más similar (con un umbral mínimo del 50%). Debemos resaltar que cada uno de los nombres se comparó con las ortografías de 150,000 otras personas.

54 Esta prueba nos permite ver si la herramienta de transliteración, estandarización y coincidencia difusa funciona correctamente. Además, nos permite validar si nuestra base de datos contiene los nombres más importantes.

Figura 4

Figura 4

interactivo Visualización de lugares, nombres y términos encontrados en los clusters de noticias.

Nombre ruso Variante Identificación de la variante

55 nombres analizados, solo uno no tenía un equivalente latino en el Base de datos, pero el sistema aún devolvió una propuesta incorrecta. En otros dos casos, se identificó la persona equivocada. Los 50 nombres restantes se combinaron con éxito a la persona correcta. Tanto la precisión como el recuerdo fueron, por lo tanto, 94.3%.

56 La persona que no está presente en nuestra base de datos fue Robert Bradtke (el secretario estadounidense de asuntos europeos y euroasianos). Este nombre fue equivocado a Robert Bartko (un ciclista alemán).

57Los dos éxitos falsos fueron Jean-Claude Juncker (translitido como ‘Jan-Klod Yunker’ y combinó con Carsten JaCker), y Heinz Fischer ( Transliterados como ‘khaynts fisher’ y emparejados con Joschka Fischer).

Nombre árabe Variante Identificación

58Todos de los 30 nombres seleccionados que se han seleccionado un equivalente en la base de datos. Sin embargo, no se encontraron dos nombres y se asignaron tres nombres a la persona equivocada. Los 25 nombres restantes fueron igualados con éxito. La precisión es, por lo tanto, el 89.3% y el recuerdo es del 83.3%.

59among Los buenos ejemplos, Jean-Pierre Raffarin, translitados como ‘Jan-Biar Rafaran’, todavía estaba igualado; Y similar, Arnold Schwarzenegger, translitido como ‘Arnuld Shuarznijr’. Incluso los nombres cortos como la paja de gato, transliterados como ‘jak stru’, se encontraron.

60 Los dos nombres que no se han encontrado se debieron a una mala transliteración: John Garang tiene la variante árabe ìÄ þÑäþ que fue transliterada como ‘Jon QRNQ ‘y no fue similar a ningún nombre en la base de datos. Lo mismo es cierto para «ìñì ßáæäí, que se transformó como ‘Jurj Kloni’ y debería haber sido identificado como George Clooney.

61 nombres coincidentes en John McCain, transliterados como ‘Jon Mak Kin’ (y combinados con Jean Makun), Colin Powell translitió como ‘Kuln Baul’, y Michael Jackson como ‘Maikl Jakson’. Una solución obvia sería agregar manualmente las reglas de transliteración para los nombres más comunes (George, John, Michael, etc.).

Identificación de la variante de nombre Farsi

  • 6 http://www.bbc.co.uk/worldservice/

6222 nombres (Se han seleccionado los artículos en línea en BBC World Service6). Todos ellos estaban en realidad en nuestra base de datos, se encontraron 20 como los más similares, pero el sistema no encontró dos nombres (îçãäå ç ی, Ali Khamenei y Óú óú ی ï ی, Mohammad Saeedi).

usando nombres para explorar las colecciones de documentos

63Las herramientas para reconocer y coincidir con los nombres son parte de un sistema más grande para analizar las colecciones de documentos multilingües, mediante la agrupación de documentos relacionados, extrayendo información relacionada de ellos y visualizando algunos de

Figura 5

Figura 5

NewSeXplorer Entrada para RAFIQ HARIRI

64 los resultados. Un objetivo importante del sistema es permitir que los usuarios puedan tamizar grandes cantidades de documentos rápidamente. Las siguientes secciones muestran aplicaciones donde se usan los nombres detectados automáticamente de las recaudaciones de noticias multilingüe.

Visualización de los nombres en mapas geográficos

65Para cada grupo de artículos de noticias relacionados detectados por el sistema de monitor de medios de Europa (EMM), extraemos los nombres de lugares y generamos un mapa interactivo que muestra la cobertura geográfica de los artículos (Pouliquen et al., 2004a y 2004b; ver cf. Figura 4). Además, varias palabras clave identificadas para el clúster y los nombres detectados en este clúster se enumeran en el mapa. Para cada grupo de artículos de noticias relacionados, los usuarios pueden, por lo tanto, ver varios aspectos de la información de un vistazo. En una versión personalizada de la herramienta, los usuarios también pueden ver en el mismo mapa que se encontraron sus términos de búsqueda seleccionados manualmente. El mapa se genera utilizando gráficos vectoriales escalables (SVG) y es interactivo para que los usuarios puedan acercarse a un área geográfica específica. La característica interactiva les permite ver, además, ver el contexto en el que se mencionaron los nombres de los lugares, las personas y los términos, y los hipervínculos permiten saltar a pasajes de texto específicos. Esta herramienta de visualización incluso permite a los usuarios obtener una descripción general de los contenidos de las colecciones de texto escritas en idiomas que pueden no entender.

Browser de nombres

66En el sistema de noticias del Explorador de JRC, la información recopilada durante el análisis diario multilingüe de noticias se almacena en una base de datos relacional para que la información sobre eventos pasados, personas y lugares puedan ser Navegado. Para cada clúster, en estos ocho idiomas actualmente, el sistema realiza un seguimiento de las personas que se mencionan junto con las demás personas, países y palabras clave. Como la base de datos se actualiza todos los días, una red de enlaces se acumula a lo largo del tiempo. Por ejemplo, la base de datos se puede consultar para todos los clústeres de noticias que mencionan a una persona determinada, y puede decir qué otras personas se mencionaron en los mismos grupos. Para cada clúster de noticias, un enlace a la URL original del artículo más típico (el MEDOID, el más cercano al clúster en el centroide) permite a los usuarios leer la historia.

Una interfaz web da acceso a la información almacenada sobre cada persona. Esta información incluye:

  • Información sobre la persona en sí: nombre, variantes de nombre, fotografía (cuando esté disponible);

  • clusters este la persona se mencionó en;

  • Las palabras de activación (títulos) se identifican con mayor frecuencia para los grupos asociados con esta persona;

  • una lista de personas asociadas, es decir, aquellas personas que se mencionan con frecuencia en los mismos grupos de noticias.

67adización, una lista VIP diaria muestra a las personas más mencionadas en la noticia de Ese día.

68AS Los títulos se almacenan en la base de datos, el usuario también puede consultar a todas las personas que tienen el título ‘Presidente georgiano’, y similar. Para obtener detalles sobre las funcionalidades de navegación, consulte Steinberger et al. (2005).

69Más de la información se exporta a un sitio web público (http://press.jrc.it/NewsExplorer /), como se muestra en la Figura 5.

Identificación de los vínculos entre personas

70 Cuando se muestra las personas asociadas clasificadas por la frecuencia, las personas que se encuentran en las noticias todo el tiempo (por ejemplo, George Bush) aparecerán en casi todas las listas. Por lo tanto, introdujimos un factor de ponderación que permite nombres altamente frecuentes de peso reducido y centrarse en aquellos nombres de personas que están específicamente asociados con una otra persona. La fórmula de ponderación utiliza tres factores: el número de clústeres en cada persona aparece, el número de grupos comunes aparecen dos personas y el número de «más asociados» a cada una de las personas. La fórmula calcula un peso de asociación específico entre dos entidades en nuestra base de datos:

ecuación n ° 1. Peso de relación entre dos entidades

Ecuación n ° 1. Peso de la relación entre dos entidades

71where:

ei: entidad

coe1, E2: CO-CO-COCURENCE entre E1 y E2

ICFE1, E2: Frecuencia de grupo inverso de E1 y E2

IASSE1, E2: Frecuencia de asociación inversa de E1 y E2

ecuación n ° 2. Peso de co-ocurrencia de clúster

Ecuación n ° 2. Peso de co-ocurrencia de clúster

Dónde:

CE1, E2: Número de grupos donde E1 y E2 que ocurren juntos

ecuación ° 3. Frecuencia de clúster inverso

Equationn ° 3.Frecuencia de racimo inverso

Dónde:

CE1, E2: Número de grupos donde E1 y E2 aparecen juntos

CEI: Número total de grupos donde ei aparece; i = 1,2

ecuación n ° 4. Frecuencia de asociación inversa

ecuación n ° 4. Frecuencia de asociación inversa

Dónde:

AEI: Número total de entidades que se producen con la IE; i = 1,2

72 La lista ponderada de personas asociadas muestra nombres diferentes de la lista de frecuencia pura. Para el Secretario General del Consejo de la Unión Europea, Javier Solana, por ejemplo, los nombres coexistentes más frecuentes son los conocidos políticos George Bush, Jacques Chirac, Yasser Arafat y Kofi Annan. Sin embargo, en la lista ponderada, las dos personas de mayor rango son Christina Gallach (portavoz de Solana) y Pierre de Boissieu (asistente de Solana). Estas dos personas son menos conocidas porque no se mencionan mucho fuera del contexto de Javier Solana, pero sus nombres están muy estrechamente vinculados a Solana, ya que normalmente se mencionan en las noticias cuando se menciona Solana.

Visualización de mapas de relación

Figura 6

Figura 6

Mapa de relación que muestra Rafik Hariri y el 20 personas más relacionadas con él (n = 20)

  • 7 http://www.graphviz.org/

73UNCE PODEMOS PESAR LAS RELACIONES DE PESO ENTRE LAS PERSONAS, PODEMOS RESUMAR LOS ENLACES EN LOS PERSONAS QUE UTILIZAN UN ‘MAPA DE RELACIÓN’ (ver MAPA DE RELACIÓN DE LA SECCIÓN). Utilizamos el software de visualización de gráfico de gráficos de código abierto de Graphviz, y más específicamente la utilidad NeatO basada en el algoritmo de Kamada & Kawai (1989), que utiliza un gráfico 2-D para mostrar el más cercano nodos juntos. Para una persona determinada A, le damos como entrada un gráfico no orientado donde cada nodo es una persona y cada borde es una relación de co-ocurrencia (utilizando el peso descrito en la sección anterior, identificando los enlaces entre personas). Una gráfica toma como parámetro una persona y calcula el gráfico no dirigido. Luego, un filtro permite mostrar solo las primeras relaciones N (aquellas n las relaciones que tienen el peso más alto). En la Figura 5, el usuario puede obtener una visión general de las personas que ocurren junto con Rafik Hariri. El usuario puede luego seleccionar a otra persona y mostrar su gráfica correspondiente. Este gráfico es útil para dar una visión general rápida de varios grupos de personas relacionadas con esta persona a.

conclusión y trabajo futuro

74many de las herramientas mencionadas en este documento Ya están en uso diario, pero otros todavía tienen que madurar y estabilizarse. La coincidencia transversal de las variantes de nombre ya produce resultados útiles para un sistema interactivo, pero las variantes de la fusión de los nombres aún no pueden automatizarse completamente porque aún produce errores. Nos gustaría explorar cómo se puede usar el contexto del clúster de dos nombres para mejorar la calidad de la herramienta de fusión de nombres. Comparación de series de tiempo como en Shinyama & Sekine (2004) podría mejorar la precisión.

75 También planeamos dedicar más tiempo para mejorar el propio reconocimiento de nombre. Algunos patrones podrían reconocer los nombres de la organización. Nos gustaría explorar sistemas a los patrones de extensión automáticamente (o semi-automáticamente) a los nuevos idiomas.

76 Actualmente usamos el contenido de las entradas de Wikipedia solo para obtener enlaces cruzados y la imagen fotográfica de la persona . La investigación interesante sería para los míos estos textos de Wikipedia automáticamente para obtener más información. La relación entre las personas, por ejemplo, podría confirmarse si se menciona una persona determinada en la página de otra persona.

idioma

# Reglas

# textos

# nombres

promedio

precisión

promedio

Recuperar

promedio

F-MEDIDA

Inglés

francés

G erman

español

italiano

ruso

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *