CORELA (Català)

Agraïm a tot l’equip del sector de la tecnologia web al JRC per proporcionar-nos les valuoses dades de notícies per provar les eines, així com pel seu suport tècnic . També volem donar les gràcies a Carlo Ferigato que ens va presentar a diverses tècniques de concordança difús. Agraïm a Tomaž Erjavec que ens ajudi amb la llengua eslovena, i Helen Salak per proporcionar-nos coneixements sobre Farsi.

Introducció

1many grans organitzacions monitoritzen contínuament els mitjans de comunicació, i especialment la notícia, per mantenir-se informats sobre esdeveniments d’interès, i per esbrinar què diuen els mitjans de comunicació sobre certes persones, organitzacions, o temes. Eines de programari que pre-seleccionen automàticament les notícies dels interessos i que pre-processar la col·lecció de text escollida simplifica la tasca repetitiva diària del seguiment dels mitjans de comunicació. Crestà & de loupey (2004) va mostrar que l’extracció de l’entitat anomenada i la visualització ajuden els usuaris a navegar per grans col·leccions de documents amb més rapidesa i eficiència. Això sembla plausible com, segons Gey (2000), el 30% de les paraules que tinguin contingut en notícies són noms propis.

2N Anàlisi de notícies És important saber quin és el tema, que es parla, on i quan van passar les coses i com es va informar. Aquest article se centra en l’ocurrència de noms propis en notícies, és a dir, la part de l’anàlisi. Treball previ centrat en respondre a les preguntes què (Pouliquen et al. 2004b), on (Pouliquen et al. 2004a) i quan (Ignat et al. 2003). A causa de l’entorn de treball altament multilingüe a la Comissió Europea, una organització amb vint idiomes oficials: la multilingüe d’eines i l’aspecte transversal són de primera importància.

  • 1 demostració disponible a http://press.jrc.it/NewsExplorer

La 3a anàlisi s’aplica a la sortida del sistema de monitorització de mitjans europeus EMM (Best et al., 2002). EMM és una botiga d’eines de programari que monitoritza una mitjana diària de 25.000 articles de notícies en 30 idiomes, derivats de 800 fonts de notícies internacionals diferents. Per a un subconjunt d’uns 15.000 articles per dia en vuit idiomes, apliquem tècniques de clústers jeràrquiques sense supervisió per a articles relacionats amb grups per separat per a cada idioma. A continuació, seguim els clústers relacionats amb la mateixa llengua i en sis de les llengües (Pouliquen et al. 2004b) 1. Les eines de reconeixement de noms de JRC s’apliquen a cadascun d’aquests clústers, és a dir, cada grup de textos relacionats es tracten com un meta-text, per a que s’extreuen els noms de la persona i de llocs geogràfics i s’identifiquen paraules clau.

4after donant alguns antecedents en la transliteració de noms i referents a treballs relacionats (antecedents i treballs relacionats), que descriuen eines per identificar noms en text (secció de reconeixement de noms adequats) i el mecanisme per fusionar-se Variants de nom, inclosos els escrits en escriptura ciríl·lica, àrab i grec (seccions de detecció i fusió de variants de noms). A continuació, es poden utilitzar els resultats d’avaluació (avaluació de la secció) i mitjançant una secció sobre les relacions d’aprenentatge entre les persones i com es poden utilitzar la informació generada automàticament en noms automàtics en l’anàlisi de notícies automàtiques (secció utilitzant noms per explorar les col·leccions de documents).

Taula 1: vista general del nom de la persona reconeguda en diversos idiomes on les diferents ortografies es refereixen a la mateixa persona.

La cursiva és la reconeguda paraula Trigger Word (s) .

Fons i treballs relacionats

5 Aquesta secció dóna alguns antecedents i punts a les aplicacions d’última generació sobre el reconeixement de l’entitat anomenada (vegeu el reconeixement de l’entitat), Transliteració de noms de persona i el seu mapatge amb variants de noms europeus (vegeu la transliteració de noms propis), i l’ús de gràfics que mostren relacions entre persones (vegeu Mapes de relacions).

reconeixement d’entitats anomenades

6 Tot i que el reconeixement de l’entitat anomenada (NER) és una àrea de recerca coneguda (per exemple, MUC-6 1995, DAILLE & MORIN 2000), el reconeixement de l’entitat anomenat multilingüe és bastant nou (ACL-MLNER 2003, POIBEAU 2003). A més, l’aspecte transversal (detecció dels mateixos noms de les llengües) sovint es limita a parelles d’idiomes individuals o només es pot entrenar en text paral·lel.

Els noms de 7people poden ser reconeguts en text (a) a través d’un Procediment de cerca Si existeix una llista de noms coneguts, (b) mitjançant l’anàlisi del context local (per exemple, “president” cognom de nom), (c) perquè una part d’una seqüència de paraules candidats és un component de nom conegut (per exemple, “John” cognom) , o (d) perquè la seqüència de parts del discurs circumdants indica un Tagger que és probable que un grup de paraules sigui un nom. De vegades, els enfocaments d’aprenentatge automàtics s’utilitzen per reconèixer noms dins del seu context mirant les paraules que envolten noms coneguts.Per a les llengües europees, és suficient considerar només paraules en majúscules. Altres idiomes, com ara àrab, no distingeixen el cas. A la JRC, utilitzem actualment mètodes (a) a (c), però no utilitzem taggers parcials, perquè no tenim accés a aquest programari per a tots els idiomes d’interès. Actualment restringim el reconeixement als noms que consisteixen en menys de dues parts. Fins ara, l’enfocament ha estat en noms de les persones, però també reconeixem alguns noms d’organització.

Transliteració de noms propis

  • 2 Una cerca a Google dóna una idea de l’ús de cada ortografia com:
    Mohammed: 7.410.000
    Mohamed : 5, (…)

8Transliteració és el procés de representació de paraules d’un idioma utilitzant l’alfabet o sistema d’escriptura d’un altre idioma (Arbabi et al., 1994). La transliteració s’utilitza per formular conceptes principalment existents en un idioma (p. Ex. La transliteració d’un llenguatge com l’àrab difereixia en funció de la llengua d’orientació. Un exemple és el nom àrab íãï, que es podria transliterar a l’anglès com a “Muhamed” o “Muhammed”, mentre que una transliteració francesa probablement seria “mohamed” o “mohammed’.2

Especificitat de noms de persones transliterants

9many publicacions, llocs web i esquemes de transliteració existeixen per a llengües que utilitzen els alfabets ciríl·lics, grecs o àrabs, però la majoria d’ells s’apliquen a les paraules generals en lloc de noms de persona. La diferència fonamental entre les paraules del llenguatge natural transliteradores i els noms transliterats és que la pronunciació de les paraules normalment segueix algunes convencions, el que significa que es poden utilitzar normes d’equivalència lingüística elaborada a mà. Tot i que el mateix pot ser parcialment cert per als noms de la mateixa llengua (per exemple, noms russos en text rus), la transliteració es fa més difícil quan els noms trobats són d’origen internacional, ja que sovint és el cas dels articles de notícies. Per exemple, en un article de notícies rus és probable que es trobin els noms d’origen francès, italià, anglès o àrab. Per transliterar de manera eficient aquests noms internacionals, seria necessari conèixer la font del nom, ja que això ens explica l’equivalència de la llengua d’orientació. Si l’origen del nom Chirac, per exemple, es coneix com a francès, llavors es pronuncia com / ʃi1ak / i ha de ser transcrit com a ôíñçß en àrab, o ширак en rus. No obstant això, si es tractava d’un nom italià, es pronunciaria com a / Kirak / i transliterat com ßíñçß en àrab i Кирак en rus.

Tractar amb molts parells de llengües

10 persones de la dependència del llenguatge de transliteració, el treball previ en la transliteració automàtica de noms s’ha dut a terme sempre per a parells específics com a xinès-anglès o Rus-anglès, com es pot veure en la gran enumeració de treballs anteriors a Lee et al. (2005). Tot i que és probable que aquesta limitació a parells d’idiomes específics produeixi millors resultats que el nostre enfocament més independent de la llengua, aquests enfocaments dependents de l’idioma no són una opció útil en el context del nostre sistema d’anàlisi de notícies altament multilingüe, que té com a objectiu tractar amb vint o Més idiomes i on normalment no es coneix la llengua original dels noms.

Reptes de transliteració

11 La transliteració de noms de cada sistema d’escriptura planteja el seu propi repte. Els scripts ciríl·lics i grecs semblen més semblants a l’escriptura llatina en què són bàsicament fonètics: les lletres o grups de lletres corresponen a sons específics. Els principals problemes són (a) les equivalències de lletres fonemes es troben en una relació n-to-n (és a dir, una lletra es pot pronunciar sovint de diferents maneres i un determinat so es pot escriure amb diferents lletres), i (b) l’inventari del fonema En diferents idiomes (i els sistemes d’escriptura) difereixen: si un idioma no coneix un so, transliterarà aquest so per un altre similar. Quan es tradueixi el nom de tornada, és probable que l’ortografia sigui incorrecta. Per exemple, el so alemany i anglès per a la lletra ‘H’ és desconegut en rus i es transliten amb freqüència a ‘г’, pronunciat / g /. Exemples són el nom de la ciutat Heidelberg (Гейдельберг ‘, pronunciat / Gejdɛljberk /) i Harry Potter (Гарри поттер, pronunciat / garipotɛr /). Quan aquests noms es troben en text rus i estan transliterats a l’anglès o alemany, apareixeran així com “Geigberg” i “Gari Potter”, o similars.

reptes específics per a la transliteració àrab

12arabic no té els sons / p /, / v / i / g /. ‘Paul’ es transcriu com a بول / Bol /, ‘Valery’ com فاليري (/ Faliry /), i ‘Globe’ com غلوب (/ 1 lo: b /). Per tant, un nom com “Vladimir Putin” es transliterarà com a بوتيم بوتين (/ Fladimi: R Buti: N /).

13transliteració de l’àrab a les llengües utilitzant l’alfabet llatí (romanització) es fa difícilment dificultat pel fet que les vocals curtes normalment no s’escriuen en àrab. Per tant, qualsevol esforç de romanització inclou normalment la vocalització, és a dir, la inserció de les vocals curtes en la llengua d’orientació (Arbabi, 1994). Com dialectes àrabs difereixen en la pronunciació, la vocalització depèn clarament del dialecte. Això és presumiblement la raó per la qual, per a l’única ortografia del nom àrab, Ómània, es poden trobar quaranta translitats diferents, incloent ‘Salayman’, ‘Seleiman’, ‘Solomon’, ‘Suleiman’ i ‘Sylayman’.

reptes per a les llengües utilitzant idees

14transliteració en idiomes amb un sistema d’escriptura ideogràfica, com ara xinès, on cada símbol és equivalent a un concepte en lloc d’un so, ha de ser abordat una manera totalment diferent. El xinès té un sistema de síl·labes anomenat pinyin (Swofford 2005), una combinació de sons inicials i finals que es poden utilitzar per construir unes 300 síl·labes. Quan es transmeten noms no xinesos, s’observa una aproximació de síl·laba a la síl·laba més propera i, per a cada síl·laba, es pot triar un ideograma corresponent xinès de la llista de diferents variants de to. La transcripció d’un nom anglès o alemany consistirà així en una concatenació de síl·labes xineses. Per exemple, “Beethoven” estaria representat a Pinyin com a “Bej-Do-Fen”.

Mètodes per transliterar

15 sistemes de transliteració automàtica de noms automàtics que utilitzen normes lingüístiques artesanals a mà, o utilitzen mètodes d’aprenentatge automàtic (per exemple, Lee et al. 2005), o una combinació de tots dos. Arbabi et al. (1994), per exemple, utilitzar regles lingüístiques i xarxes neuronals a la vocalització i romanès noms àrabs, així com filtrar els formularis de paraules objectius poc generats. Lee et al. (2005) Aprendre el nom de la transliteració de grans llistes bilingües xineses-angleses de noms propis, utilitzant l’algoritme de maximització de l’expectativa. No utilitzen diccionaris de pronunciació ni puntuacions de similitud fonètica generades manualment. Al JRC, estem utilitzant regles de transliteració artesanal a mà. La sortida es processa després per obtenir més regles de substitució artesanal a mà per tal de produir una representació estàndard interna (vegeu la secció que detecten i fusionen variants de noms).

Mapes de relació

16When una eina extractes Noms de persones de documents, generen implícitament informació útil sobre la co-ocorció de persones. Ben-Dov et al. (2004), que va treballar en les dues relacions de detecció i visualitzant-les, citeu: “El coneixement es pot crear mitjançant la creació d’una inferència del que ja es coneix” (Davies 1989). Aquests coneixements o informació es poden visualitzar amb els mapes de relacions.

Principi de 17IN, es poden utilitzar dos mètodes per generar informació de relació: (a) l’observació de la co-ocurrència de noms en el mateix text, i (b) l’ús de regles sintàctiques-semàntiques per detectar relacions més específiques entre persones. Si sovint es mencionen dues persones en el mateix document (informació co-ocurrència), és probable que estiguin en una determinada relació. Aquesta relació és difícil d’etiquetar, ja que podria ser amistat, rivalitat, relació familiar, pertanyent a la mateixa organització, participació en la mateixa reunió, etc. Un sistema basat en regles, en canvi, seria capaç de detectar més específics Relacions. Ben-Dov et al. (2004) Compareu els dos enfocaments i arribeu a la conclusió que, en cercar informació sobre reunions conjuntes, els algorismes basats en co-occurrències presenten un bon record, però són dolentes per a la precisió, mentre que la inversa és certa per als mètodes basats en regles. Els autors estimen que la redacció de regles per identificar “la participació en una reunió comuna” pren un programador entre una i tres setmanes per a una llengua només, suposant que es disposa d’un analitzador adequat. L’avantatge de l’enfocament basat en la co-ocorrecència, utilitzat pel JRC, és que no cal escriure normes i que les mateixes fórmules matemàtiques es poden utilitzar per descriure les relacions (co-ocurrència) en tots els idiomes.

18 Els mapes de connivència del sistema comercial, per connexions, presents relacions entre actors de les notícies, però no proporcionen detalls sobre els algorismes utilitzats (vegeu Últim 06 / 06/2005).

Reconeixement de noms adequats

19AT el JRC, afegim tots els noms detectats durant la nostra anàlisi de notícies diàries a una base de dades de noms coneguts, de manera que aquests noms puguin llavors ser reconegut en el futur mitjançant un procediment simple de cerca (mètode (a) descrit en la secció reconeixement de l’entitat). Després d’un any d’anàlisi de notícies, la base de dades ha crescut fins a uns 150.000 noms diferents (no comptant variants del mateix nom; vegeu la secció que detecta i fusiona variants de noms). Cada dia s’insereixen més de 500 noms nous. Per raons de rendiment, s’utilitza un autòmat estatal finit compatible amb unicode (UTF-8).Es genera un conjunt d’expressions regulars per a cada entrada de la base de dades com a entrada a la Utilitat Flex (Paxson 1995), que genera l’autòmat. Per excloure el reconeixement de les variants de noms a causa d’errors d’escriptura, l’autòmat només cerca noms que es van trobar almenys dues vegades. Fins ara, l’eina cerca aproximadament 50.000 persones, que representen unes 60.000 ortografies diferents.

Paraules de disparador

20 per endevinar nous noms (mètode (b) descrits a la secció reconeixement de l’entitat anomenada), Es va desenvolupar una extensa llista de patrons locals en un procediment de fleixos d’arrencada: primer vam escriure patrons locals senzills a Perl per reconèixer noms en una col·lecció de tres mesos de notícies angleses, franceses i alemanyes. A continuació, vam mirar els contextos laterals d’esquerra i dreta més freqüents de la llista resultant de noms coneguts. Per a l’anglès sol, actualment tenim uns 1.100 patrons locals, que consisteixen en títols (‘Dr.’, ‘MR’, etc.), adjectius de país (com ‘estonian’), professions (‘actor’, ‘tennis’, etc.), patrons específics (com ara “+ any d’edat”), etc. Ens referim a aquests patrons locals com a paraules desencadenants. Per a cada idioma afegit, els parlants nadius tradueixen les llistes de patrons existents i utilitzen el mateix procediment d’arrencada per completar els patrons.

21Que patrons permeten que el programa reconegui noms nous (és a dir, en ‘el metge nord-americà John Smith’), però una llista emmagatzemada d’aquests patrons també és útil per donar informació addicional als usuaris informació sobre les persones. En l’exemple anterior, per exemple, l’usuari veurà que John Smith probablement és un metge nord-americà. Quan s’utilitza sovint un nom amb les mateixes paraules desencadenants, es poden utilitzar les mesures estadístiques per qualificar els noms automàticament. Per exemple, George W. Bush serà reconegut com a president nord-americà, Rafik Hariri com a “antic ministre del primer ministre libanès”, etc.

22 persones jrc té regles per a les llengües següents: anglès, francès , Alemany, espanyol i italià. En certa mesura, tenim també alguns patrons holandesos, estònics i eslovens. Una primera versió de Russian està gairebé preparada, l’àrab està en desenvolupament. L’objectiu és incloure les vint llengües oficials de la Unió Europea i dels països candidats.

Taula 2: dos exemples de patrons utilitzats per reconèixer Tony Blair i Romano Prodi en textos eslovens

Tony (A | O | U | OM | M | Ju | Ju | JEM)? S + Blair (A | O | U | OM | M | Ju | Jem | JA)

romà (a | o | u | om | em | m | jem | jem | ja)? ?

Tractar de la declinació

231 Algunes llengües, especialment en llengües eslavòniques i finno-ugric, tant els patrons locals com els noms propis s’introdueixen i poden tenir sufixos, com es pot veure a l’exemple eslovè ‘tožba proti donaldu rumsfeldu zaradi mučenj’. L’autòmat per reconèixer noms ha de permetre una varietat de sufixos (en l’exemple donat, el sufix “u” es va afegir al nom Donald Rumsfeld). Algunes de les regles escrites a mà utilitzades al JRC per detectar la persona i els topònims només consisteixen en possibles llistes de sufix per a cada nom. Altres són més complexos, per exemple, utilitzant funcions de substitució per detectar l’estonià New Yorgile com a inflexió de Nova York o detectar que el “O” a Romano Prodi és part del nom i no s’hauria d’identificar com a ‘O’-Sufix a Text eslovè. La taula 2 mostra dues llistes de sufix de mostra que s’han de detectar noms coneguts en text eslovè. La taula 3 enumera les regles que s’utilitzen per generar variants flexibles automàticament per a noms russos a la nostra base de dades.

Taula 3: regles simplificades per construir un patró que reconeix tots els possibles declensions d’un nom donat en el text rus. / p> Taula 3: regles simplificades per construir un patró que reconeix totes les possibles declensions d'un nom determinat en text rus.

emmagatzematge de noms en una base de dades

  • 3 http://en.wikipedia.org/

24 names identificats en qualsevol dels idiomes analitzats s’emmagatzemen automàticament en una base de dades , juntament amb informació sobre on i quan es va trobar el nom i amb informació sobre el llenguatge del text. També s’emmagatzemen les paraules desencadenants que es troben al voltant del nom. Cada nom diferent se li assigna un identificador numèric. Les variants identificades per al mateix nom (vegeu la secció detectar i fusionar variants de noms) tots s’emmagatzemen amb el mateix identificador. Per afegir variants de nom addicional, especialment en llengües no europees, cerqueu automàticament l’enciclopèdia de Wikipedia3 gratuïta per a tots els noms de la nostra base de dades (cf. Figura). Quan existeix una entrada de Wikipedia, afegim els URL corresponents a la base de dades per permetre als usuaris trobar informació addicional sobre una persona determinada. A més, copiem la fotografia de la persona, quan estigui disponible.

25Quan detectem nous noms, utilitzem una eina de concordança difusa per detectar automàticament si el nom és una variant d’un nom ja present La base de dades (vegeu la secció Fuzzy coincident de les variants de noms).

Taula 1 demostra el difícil que el reconeixement de noms pot estar a través de les llengües.

La taula 1 demostra el difícil que el reconeixement de noms pot estar a través de les llengües.

26entry per a Rafik Hariri a l’enciclopèdia de la Viquipèdia (http://en.wikipedia.org/ wiki / rafik_hariri), i alguns variants de nom detectats automàticament

detectar i Fusió de variants de nom

27 Per a molts noms de persones, diverses variants s’utilitzen en els mitjans de comunicació, no només a través de llengües (vegeu la taula 1), però sovint fins i tot dins del mateix idioma (en 50 articles en anglès publicats el 14 d’abril.) 2005, trobem quatre ortografies: Rafik Hariri, Rafik Al-Hariri, Rafiq Hariri i Rafiq Al-Hariri). Per tal de permetre als usuaris trobar informació sobre determinades persones independentment de l’ortografia del nom, volem emmagatzemar totes les variants de noms juntament amb un identificador numèric únic.

28usar la similitud de l’ortografia de noms (descrit a la secció Fuzzy coincidència de les variants de noms), actualment combinem el nom de candidats de variants automàticament si es troben en el mateix clúster de notícies i si la seva puntuació de similitud és prou alta (70 %). Com que els clústers poden consistir en entre 2 i 100 articles parlant del mateix esdeveniment (per a més detalls, vegeu Pouliquen et al. 2004b), és molt probable que es trobin dues variants del mateix nom de la mateixa persona en el mateix clúster.

  • 4 L’article va fer la intenció de parlar de Daniella Cicarelli (‘Reciente separació de la modelo (…)

29as El sistema per fer coincidir els noms Les llengües encara estan en desenvolupament, es calcula actualment la fusió de la variant de nom lingual. Llavors es calcula el procés Fusta automàticament noms similars (vegeu la taula 4 per a exemples compilats durant un dia). Per als altres (similitud entre el 80% i el 95%), el sistema mostra una llista de nous noms similars als anteriors (candidats de variants), demanant a un humà confirmació abans de fusionar-los. Com es mostra als exemples de la taula 5, tots els noms d’aquest dia han de ser fusionat. Fins i tot el cas de Daniel Cicarelli va resultar ser un error tipogràfic perquè els dos noms s’han de fusionar4.

30as Actualment no considerem el context dels noms, que podria succeir que el sistema fusiona noms com “Mariana Gonzalez” (un fedor veneçolà) i ‘Mariano Gonzalez’ (un futbol argentí). jugador). Per tant, el sistema permet intervenció manual corregir els noms de fusions incorrectament o fusionar dues variants que no s’han detectat automàticament.

31s que es mostren a la taula 4, la taula 5 i la nota al peu 4, apareixen alguns noms errònics a les notícies, però és important capturar-les de totes maneres per tal de millorar el record.

Taula 4: Llista de noms extremadament similars trobats a les notícies d’un sol dia (30 de maig de 2005).

nou nom

fusionat amb el nom existent:

Abdüllatif sener

abdullatif sener

Abubakar Tanko

aboubakar tanko

Allan McDonald

Alan mcdonald

bahiya al-hariri

Bahia al-hariri

brian herta

Bryan Herta

Eid Cabalu

Eid Kabalu

hassan mohamed nur

Hassan Moha Med Nuur

ismail al-hadithi

ismail al hadithi

Johana melka

Johanna melka

josé Luis Lingeri

Jose Luis Lingeri

luis fernández

luis fernandez

michael haefrati

michael haefrati

Mohamed Dhia

Mohammed dhiaa

Nikolas sarkozy

Nicolas Sarkozy

salomé zurabishvili

sal OME Zurabishvili

sergei brin

Sergey Brin

stanley pescador

stanley fischer

Surat Ikramov

Sourat Ikramov

trudi stevenson

Trudy stevenson

Werner Schneyder

werner schneider

Aquestes variants es fusionen automàticament.

Taula 5: Llista de noms nous similars (30 de maig de 2005).

jove russ

ross jove

Gary Shafer

Gary Sheffer

Mohammed Dhia

mohammad dhiya

brian vilora

brian viloria

Saad al-Harir

Saad al-hariri

Pierre gadonnaix

Pierre Gadonneix

abudullahi yusuf

Abdullahi yusuf

… (totalment 24 proposicions) …

daniel cicarelli

daniella cicarelli

Abans de fusionar aquestes variants, es requereix confirmació manual.

32Due a l’ús de diferents scripts en grec, rus i àrab, la fusió de noms en aquestes llengües Parcialment difereix del procés utilitzat per a llengües escrites amb l’alfabet romà.

Normalització de l’ortografia de nom

33 name variants a través de llengües es deuen sovint a l’omissió de diacrítics. Per exemple, un diari britànic de vegades es pot referir a François Mitterrand com a François Mitterrand. Una sèrie de variacions regulars que hem observat són els protagonistes de les dues consonants, transcripcions de f per pH (per exemple, Ralph Schumacher), ús alternatiu de W o V en noms russos (per exemple, Wladimir vs. Vladimir), ortografia alternativa del so ‘u ‘com o ou, etc. En llengües com Lituanes, les transcripcions són comunes (per exemple, Buš per Bush). Per tant, vam decidir desenvolupar una representació estàndard interna, ISR, que té l’objectiu pragmàtic d’enllaçar les variants, sense voler fer reclamacions teòriques de cap tipus.

Abans de calcular una similitud entre parells de noms, tots els noms estan estandarditzats mitjançant un conjunt d’aproximadament 30 normes de substitució. Alguns exemples són:

  • Caràcter accentuat → equivalent no accentuat

  • Doble consonant → Single consonant

  • ou → u

  • wl (inici del nom) → vl

  • ow (final) Nom del nom) → OV, EV

  • ck → k

  • ph

  • LI>

    Ž → j

  • š → sh

34 Aquesta llista de regles de substitució també pot contenir més Excepcions freqüents no cobertes per les regles genèriques (per exemple: Джеймс = > ‘James’ per evitar la transliteració bàsica com a ‘Geyms’). Exemples de noms Després d’aquesta normalització són:

  • jacques chirac → jak shirak

  • wladimir ustinow → vladimir ustinov

  • Vladimir Oustinov → Vladimir Ustinov

  • Abdalah džburi → Abdalah Djburi

  • Abdallah Joubouri → Abdalah Juburi

  • malik saïdoullaïev → malik dairulaiev

  • Malik Saidullajew → Malik Saidulajev

Transliteració de scripts no llatins

35 per a grecs, russos i àrabs, que no utilitzen l’escriptura llatina, fem servir regles de transliteració i adaptació a mà per representar noms amb l’alfabet llatí. La transliteració consisteix en una sèrie de normes de substitució que substitueixen un o més caràcters no llatins per un o més caràcters llatins. Per a grecs, per exemple, les següents substitucions s’apliquen:

  • λ → l

  • θ → th

  • μπ → b

  • 36After La transliteració, les regles de normalització descrites en la secció anterior normalització de l’ortografia del nom s’apliquen. Els resultats de la transliteració i la normalització són sovint fonètics (per exemple, ‘Bil Klinton’, ‘Jak Shirak’, etc.), però són prou semblants a la representació estàndard per produir bons resultats en el procés de concordança difusa (vegeu la secció Fuzzy coincident de Variants de noms). Els resultats d’exemple per a transformacions gregues, ciríl·liques i àrab són:

    • κόφι ανάν (grec) → kofi anan

    • кофи Аннан (rus) ) → kofi anan

    • Кофи Анан (búlgar) → kofi anan

    • ßæýí Úçä (àrab) → kufi anan

    • कोफी अन्नान (hindi) → kofi anan

    37AT el JRC, hem desenvolupat regles de transliteració per als següents sistemes d’escriptura: Grec, ciríl·lic (rus, búlgar i ucraïnès), àrab (incloent Farsi i Urdu) i devanagari (hindi i nepali). Escriure les regles per transliterar l’escriptura devanagari va trigar aproximadament 2 hores.

    Fuzzy coincidència de les variants de noms

    38in ordre per identificar potencials variants de noms (com els de la taula 5) Realitzem una comparació sàvia de tots els noms transliterats i estandarditzats. Si la similitud del parell de noms està per sobre d’un determinat llindar, els noms són candidats variants.

    Figura 2

    Figura 2

    Exemple del procés de concordança entre un cigrí (rus) i un nom llatí (francès).

    39 Per al càlcul de similitud combinem tres mesures de similitud. Actualment tenim la mitjana de les tres mesures, però tenim previst avaluar l’impacte relatiu de cadascun d’ells per tal d’optimitzar el seu pes relatiu per al càlcul de similitud.

    40 Les tres mesures es basen en la lletra NGRAM Simelyity : Calculem el cosinus de les llistes de freqüència de la lletra NGRAM per a tots dos noms, per separat per a bigrams i per a trigrames. La tercera mesura és el cosinus de bigrams basats en cadenes sense vocals. No utilitzem transcripcions fonètiques de noms, ja que es diu que són menys útils que els enfocaments similars a la cadena (Zobel & DART, 1995). A més, les regles de transcripció fonètica són diferents de la llengua a la llengua (per exemple, el chirac en italià es pronuncia com a / kirak /) i trobar les regles de transcripció per a molts idiomes seria difícil.

    41Figure 2 dóna una visió general del procés per comparar un nom francès amb la seva contrapart russa escrita amb lletres ciríl·lics.

    Variació especial per tractar amb àrab

    42standard Arabic escriu vocals llargues i sovint ometen els curts. En comparar noms escrits en àrab amb noms escrits amb l’alfabet llatí, per tant, eliminem les vocals d’aquest últim abans de calcular la similitud. Per exemple, la representació estàndard interna del nom Condoleezza Rice és “Kondoleza Rice”. El mateix nom escrit en àrab és ßæäïæáíç Ñçíó. El resultat de la transliteració i la normalització de la versió àrab del nom és “Konduliza Rais”. El cosinus de bigrams entre aquestes dues representacions sense vocals (‘kndlz rc’ i ‘kndlz rs’) és bastant elevat (0,875) de manera que els dos noms escrits amb l’àrab i els scripts llatins s’identifiquen amb èxit com a variants de nom.

    43Figure 3 resumeix el procés de concordança per a un nom àrab.

    Figura 3

    Figura 3

    Name àrab / llatí Exemple de concordança

    Avaluació del reconeixement de noms

    44 al nostre enfocament no està optimitzant el reconeixement de l’entitat anomenada per a un idioma, sinó per trobar un enfocament que sigui fàcil i ràpidament adaptat a nous idiomes. No obstant això, hem llançat una avaluació sobre l’execució de l’eina per a diversos idiomes:

    • 5

    45in cada idioma que hem triat una selecció aleatòria d’aproximadament 100 articles de diaris. Hem aplicat l’eina de reconeixement de noms de la nostra persona. Els experts enumeren tots els noms de persones presents al text. Per a cada article, comparem si cadascun dels noms de persones reconeguts automàticament també va ser seleccionat per l’expert (per obtenir precisió), i si també es van trobar tots els noms extraïts manualment (per obtenir el record). Combinem aquests dos valors utilitzant el F-Mesuri5.

    46 Hem de destacar que, a diferència de l’avaluació de reconeixement de noms tradicionals, el nostre objectiu era identificar la presència o no presència d’un nom en el text i que no era la nostra preocupació identifiqueu totes les mencions del nom. A més, restringim la nostra avaluació al reconeixement de noms de persona, ignorant les organitzacions i topònims. Els resultats es resumeixen a la taula 6.

    Taula 6: Avaluació del reconeixement de noms de la persona en diversos idiomes.

    Idioma

    # regles

    # textos

    # noms

    mitjana

    precisió

    mitjana

    Recordatori

    mitjana

    F-Mesura

    Anglès

    francès

    g Erman

    Espanyol

    italià

    rus

    El nombre de regles (és a dir. Les paraules disparadores) donen una idea de la cobertura esperada per a aquest idioma. La tercera i la quarta columnes mostren la mida del conjunt de proves (nombre de textos, nombre de noms de persona identificats manualment).

    47 Els resultats són menys bons que els sistemes de reconeixement d’entitats anomenades que utilitzen part de parla Els taggers, estan optimitzats per a un idioma donat i no apunten a una multilingüitat tan alta. No obstant això, la nostra precisió és raonablement alta. En el nostre entorn, on intentem detectar noms en clústers de notícies en lloc de en articles individuals, el record inferior no és un gran problema, ja que els noms normalment es troben en almenys un dels articles de manera que la informació de la persona per al clúster és sovint completa.

    48La puntuació de baix recorda podria ser degut a la naturalesa del nostre conjunt de proves heterogènies: el conjunt no només inclou articles de molts dominis diferents (política, resultats esportius, debats de programes de televisió, etc.), però també Dels diaris internacionals de tot el món (especialment per als textos en anglès).

    49 El sistema ha d’analitzar articles com: ‘Pho Naimahawan, del districte de Mae Ai de Chiang Mai, ha estat seleccionat (…) per representar a Tailàndia en un esdeveniment de natació (…). Pho està sent ajudat per Wanthanee Rungruangspakul, un professor de la llei “. Sense etiquetatge parcial, és difícil endevinar que “Pho Naimahawan” és un nom de persona.No obstant això, en el mateix text, vam poder endevinar el nom “Wanthanee Rungruangspakul” gràcies a la paraula disparador “Professor de la llei”.

    50 la menor precisió per alemany era previsible com en alemany cada substantiu és superior, que sovint provoca el sistema que reconeix substantius comuns com a noms propis. A l’exemple: “Die Österreichische Eishookey NationalManSchaft Bekommt Während der Heim-WM Nech Verstärkung”, “Eishockey Nationalmannschaft” (equip nacional d’hoquei sobre gel) és incorrectament desencadenat per “Österreichische” (austríac).

    51The relativament dolent Les puntuacions d’espanyol es deuen a diversos fets. Un d’ells era que no teníem cap nom basc a les nostres llistes de noms i que molts noms bascos es trobessin al conjunt de proves. Una altra raó va ser que el nostre sistema només va reconèixer la primera part dels típics noms de compostos espanyols. Finalment, diversos noms d’organització es van classificar per l’algorisme com a noms de persona.

    52 La explicació per als resultats inferiors russos és principalment que la nostra base de dades de noms només contenia una dotzena de noms russos de manera que el sistema hagués d’endevinar més noms, que és més difícil que mirar els noms coneguts.

    Avaluació de la transliteració

    53a Avaluació imparcial de l’algorisme de coincidència de la variant per als noms escrits amb l’escriptura llatina no és possible perquè totes les variants freqüents ja s’emmagatzemen a la base de dades, i alguns d’ells ja s’han comprovat manualment o es van afegir a través de la cerca de Wikipedia (vegeu l’emmagatzematge de secció de noms en una base de dades). Només podríem provar el sistema en noms nous, però per a aquests no trobaríem variants a la base de dades. Les proves del sistema en variants que abans no són especialment útils. En canvi, vam avaluar la precisió del sistema identificat l’equivalent llatí dels noms escrits amb lletres ciríl·lics (russos) i àrabs. Amb aquesta finalitat, dos parlants natius van preparar una llista curta de noms seleccionats aleatòriament que van trobar a les notícies del dia. A continuació, vam comprovar si el sistema va proposar o no la versió europea d’aquest nom com a més similar (amb un llindar mínim del 50%). Cal destacar que cadascun dels noms es va comparar amb les ortografies de 150.000 persones.

    54 Aquesta prova ens permet veure si la transliteració, l’estandardització i l’eina de coincidència difusa funciona correctament. A més, ens permet validar si la nostra base de dades conté els noms més importants.

    Figura 4

    Figura 4

    interactiu Visualització de llocs, noms i termes que es troben als clústers de notícies.

    Divisió de la variant de noms rus

    55 noms de 53 noms analitzats, només un no va tenir un equivalent llatí a la Base de dades, però el sistema encara va retornar una proposta equivocada. En altres dos casos, es va identificar la persona equivocada. Els 50 noms restants es van fer coincidir correctament amb la persona correcta. Tant la precisió com el record van ser, per tant, el 94,3%.

    56 La persona no present a la nostra base de dades va ser Robert Bradtke (secretari nord-americà d’Afers Europeus i Euràsics). Aquest nom es va fer coincidir erròniament amb Robert Bartko (un ciclista alemany).

    57 els dos falsos èxits van ser Jean-Claude Juncker (transliterat com “Jan-klod Yunker” i va coincidir amb Carsten Jancker), i Heinz Fischer ( Transliterat com a “Khaynts Fisher” i coincideix amb Joschka Fischer).

    Name àrab Identificació de la variant

    58 Totes les 30 noms seleccionats tenien un script llatí equivalent a la base de dades. No obstant això, no es van trobar dos noms i es van assignar tres noms a la persona equivocada. Els 25 noms restants es van fer coincidir amb èxit. La precisió és, doncs, el 89,3% i la recuperació és del 83,3%.

    59Among Els bons exemples, Jean-Pierre Raffarin, transliterat com a “Jan-Biar Rafaran”, encara estava igualat; I de la mateixa manera Arnold Schwarzenegger, transliterada com a “Arnuld Shuarznijr”. Fins i tot els noms curts com Jack Palla, es van trobar com a “Jak Stru”.

    60 Els dos noms no trobats van ser deguts a la mala translitatificació: John Garang té la variant àrab “, que va ser transliterada com ‘Jon QRNQ ‘i no va ser similar a cap nom a la base de dades. El mateix passa amb ìæñì ßáæíí, que va ser transliterat com a “jurj kloni” i hauria d’haver estat identificat com a George Clooney.

    Els noms de 61 auxiliars van ser John McCain, transliterats com a “Jon Mak Kin” (i coincideixen amb Jean Makoun), Colin Powell es traduïa com a “Kuln Baul”, i Michael Jackson com a “Maikl Jakson”. Una solució òbvia seria afegir manualment les regles de transliteració per als noms més habituals (George, John, Michael, etc.).

    Nom de la variant del nom de Farsi

    • 6 http://www.bbc.co.uk/worldservice/

    6222 noms (Es van seleccionar els articles en línia de BBC World Service6). Tots ells estaven realment a la nostra base de dades, es van trobar 20 com els més semblants, però el sistema no va trobar dos noms (îça Ç Ç Ç, Ali Khamenei i ÃíÃï Óú ï, Mohammad SaeeDI).

    Ús de noms per explorar col·leccions de documents

    63eles eines per reconèixer i fer coincidir els noms formen part d’un sistema més gran per analitzar les col·leccions de documents multilingües, agrupant documents relacionats, extracció d’informació D’ells i visualitzant alguns de

    Figura 5

    Figura 5

    Entrada de Newsexplorer per a Rafiq Hariri

    64 els resultats. Un propòsit principal del sistema és permetre que els usuaris semblin a través de grans quantitats de documents ràpidament. Les seccions següents mostren aplicacions on s’utilitzen els noms detectats automàticament de les col·leccions de notícies multilingües.

    Visualització de noms sobre mapes geogràfics

    65 Per a cada clúster d’articles de notícies relacionats detectats pel sistema europeu Media Monitor (EMM), extreu els noms de llocs i generem un mapa interactiu que mostra la cobertura geogràfica dels articles (Pouliquen et al., 2004a i 2004b; vegeu CF. Figura 4). A més, hi ha una sèrie de paraules clau identificades per al clúster i els noms detectats en aquest clúster es llisten al mapa. Per a cada grup d’articles de notícies relacionades, els usuaris poden veure així diversos aspectes d’informació a simple vista. En una versió personalitzada de l’eina, els usuaris també poden veure al mateix mapa que s’han trobat els seus termes de cerca seleccionats manualment. El mapa es genera mitjançant gràfics vectorials escalables (SVG) i és interactiu perquè els usuaris puguin ampliar una àrea geogràfica específica. La funció interactiva els permet veure més el context en què es van esmentar els noms, les persones i els termes, i els hipervincles permeten saltar a passatges de text específics. Aquesta eina de visualització fins i tot permet als usuaris obtenir una visió general dels continguts de les col·leccions de text escrites en idiomes que poden no entendre.

    Nom del navegador

    66In Sistema de notícies del JRC, la informació recopilada durant l’anàlisi diària multilingüe s’emmagatzema en una base de dades relacional perquè la informació sobre esdeveniments passats, persones i llocs puguin ser navegable. Per a cada clúster, en vuit idiomes actualment, el sistema fa un seguiment que les persones s’esmenten juntament amb les altres persones, països i paraules clau. A mesura que s’actualitza la base de dades cada dia, una xarxa d’enllaços s’acumula al llarg del temps. Per exemple, la base de dades es pot consultar per a tots els cúmuls de notícies que esmenten una persona determinada, i pot dir quines altres persones es van esmentar en els mateixos clústers. Per a cada clúster de notícies, un enllaç a l’URL original de l’article més típic (el mediide, el més proper al centroide clúster) permet als usuaris llegir la història.

    Una interfície web dóna accés a la informació emmagatzemada sobre cada persona. Aquesta informació inclou:

    • Informació sobre la persona mateixa: nom, variants de noms, fotografia (quan estigui disponible);

    • clústers Es va esmentar a la persona;

    • Les paraules desencadenants (títols) més freqüentment identificats per als clústers associats a aquesta persona;

    • Una llista de persones associades, és a dir, aquelles persones que es mencionen amb freqüència en els mateixos clústers de notícies.

    67Adicionalment, una llista VIP diaris mostra les persones més sovint esmentades a les notícies de Aquest dia.

    68as Els títols s’emmagatzemen a la base de dades, l’usuari també pot consultar a totes les persones que tinguin el títol “president georgià” i similars. Per obtenir més informació sobre les funcionalitats de navegació, vegeu Steinberger et al. (2005).

    69Most de la informació s’exporta a un lloc web públic (http://press.jrc.it/NewsExplorer /), com es mostra a la figura 5.

    Identificació d’enllaços entre persones

    70When que mostren les persones associades classificades per freqüència, les persones que es troben a la notícia tot el temps (per exemple, George Bush) apareixeran en gairebé totes les llistes. Per tant, hem introduït un factor de ponderació que permet reduir els noms altament freqüents i centrar-se en aquells noms de persona associats específicament amb una altra persona determinada. La fórmula ponderació utilitza tres factors: el nombre de clústers apareix a cada persona, el nombre de clústers comuns apareixen dues persones, i el nombre de “associats més” cadascuna de les persones tenen. La fórmula calcula un pes d’associació específic entre dues entitats de la nostra base de dades:

    Equació n ° 1. Pes de relació entre dues entitats

    equació n ° 1. Pes de la relació entre dues entitats

    71 On:

    EI: entitat

    coe1, e2: co-ocurrència de clúster entre E1 i E2

    ICFE1, E2: freqüència de clúster inversa de E1 i E2

    iasse1, e2: freqüència d’associació inversa de E1 i E2

    Equació n ° 2. Clúster co-ocurrència Pes

    Equació n ° 2. Clúster co-ocurrència Pes

    on:

    CE1, E2: Nombre de clústers on es produeixen E1 i E2 junts

    equació ° 3. Freqüència de clústers inversos

    Equació ° 3.Freqüència de clúster inversa

    On:

    CE1, E2: Nombre de clústers on E1 i E2 apareixen junts

    CEI: nombre total de clústers on apareix ei; i = 1,2

    Equació n ° 4. Freqüència d’associació inversa

    equació n ° 4. Freqüència d'associació inversa

    on:

    AEI: nombre total d’entitats que es produeixen amb EI; i = 1,2

    72 la llista ponderada de persones associades mostra noms bastant diferents de la llista de freqüències pures. Per al secretari general del Consell de la Unió Europea Javier Solana, per exemple, els noms més freqüentment co-ocorreguts són els coneguts polítics George Bush, Jacques Chirac, Yasser Arafat i Kofi Annan. En la llista ponderada, però, les dues persones de primer nivell són Christina Gallach (portaveu de Solana) i Pierre de Boissieu (Assistent de Solana). Aquestes dues persones són menys conegudes perquè no es mencionen molt fora del context de Javier Solana, però els seus noms estan molt vinculats a Solana, ja que normalment es mencionen a les notícies quan Solana s’esmenta.

    Mostrant mapes de relació

    Figura 6

    Figura 6

    Mapa de relació que mostra Rafik Hariri i el 20 persones més relacionades amb ell (n = 20)

    • 7 http://www.graphviz.org/

    73once Som capaços de pesar relacions entre persones, podem resumir els enllaços entre les persones que utilitzen un “mapa de relacions” (vegeu Mapes de relació de la secció). Utilitzem el programari de visualització de gràfics de codi obert Graphviz, i més concretament la utilitat NEATO basada en l’algorisme de KAMADA & Kawai (1989), que utilitza un gràfic 2-D per mostrar el més proper nodes junts. Per a una persona determinada A, donem com a entrada d’un gràfic no orientat a la qual cada node és una persona i cada vora és una relació de co-ocurrència (utilitzant el pes descrit a la secció anterior que identifica enllaços entre persones). Un gràfic pren com a paràmetre una persona i calcula el gràfic no dirigit. Un filtre llavors permet mostrar només les primeres relacions N (les relacions n que tenen el pes més alt). A la figura 5, l’usuari pot obtenir una visió general de les persones que es produeixen juntament amb Rafik Hariri. L’usuari pot seleccionar una altra persona i mostrar el seu gràfic corresponent. Aquest gràfic és útil per donar una visió ràpida de diversos grups de persones relacionades amb aquesta persona a.

    Conclusió i treball futur

    74Many de les eines esmentades en aquest article ja estan en ús diari, però altres encara han de madurar i estabilitzar-se. La concordança creuada de les variants de noms ja produeix resultats útils per a un sistema interactiu, però la fusió de variants de nom encara no es pot automatitzar completament perquè encara produeix errors. Ens agradaria explorar com es pot utilitzar el context del clúster de dos noms per millorar la qualitat de l’eina de combinació de noms. Comparació de sèries temporals com a shinyama & Sekine (2004) podria millorar la precisió.

    75. També planeja dedicar més temps per millorar el reconeixement de noms. Alguns patrons podrien reconèixer noms d’organització. Ens agradaria explorar sistemes per ampliar automàticament els patrons a nous llenguatges.

    76 Actualment utilitzem el contingut de les entrades de la Viquipèdia només per obtenir enllaços creuats i la fotografia de la persona . Les investigacions interessants seria el meu textos de Wikipedia automàticament per obtenir més informació. La relació entre les persones, per exemple, es podria confirmar si es menciona una persona determinada a la pàgina d’altres persones.

    Deixa un comentari

    L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *