Corela (Română)

Mulțumim întregii echipe a sectorului tehnologiei web la JRC pentru a ne oferi date de știri valoroase pentru a testa instrumentele, precum și pentru sprijinul lor tehnic . De asemenea, dorim să le mulțumim lui Carlo Ferigato care ne-a prezentat diverse tehnici de potrivire fuzzy. Îi mulțumim lui Tomaž Erjavec pentru a ne ajuta cu limba slovenă, iar Helen Salak pentru că ne-au oferit cunoștințe despre Farsi.

Introducere

1Many organizații mari monitorizează continuu mass-media și mai ales știrile, pentru a rămâne informat despre evenimente de interes și pentru a afla ce spun mass-media despre anumite persoane, organizații, sau subiecți. Instrumente software care pre-selectează automat articolele de știri de interes și că pre-procesul colecției de text alese simplifică sarcina repetitivă zilnică a monitorizării mass-media. Crestan &

de loupy (2004) a arătat că extracția entității și vizualizarea numită ajută utilizatorii să navigheze mai rapid și mai eficient colecții mari de documente. Acest lucru pare plauzibil ca, potrivit lui Gey (2000), 30% din cuvintele purtătoare de conținut în știri sunt nume adecvate.

2in Analiza știrilor Este important să știți ce este subiectul, despre care se vorbește, unde și când s-au întâmplat lucrurile și cum a fost raportat. Această lucrare se concentrează asupra apariției unor nume adecvate în știri, adică parte a analizei. Activitatea anterioară axată pe răspunsul la întrebările ce (POULIQEN și colab. 2004b), unde (Poulquen și colab., 2004a) și când (ignor et al., 2003). Datorită mediului de lucru multilingv în cadrul Comisiei Europene – o organizație cu douăzeci de limbi oficiale – multilingvitate de instrumente și aspectul încrucișat sunt de o importanță primă.

DIV>

  • 1 demonstrație disponibilă la http://press.jrc.it/NewsExplorer
  • Analiza 3 este aplicată la ieșirea sistemului Media Media Media EMM (Best și colab., 2002). EMM este un set de instrumente software care monitorizează o medie zilnică de 25.000 de articole de știri în încă 30 de limbi, care derivă din 800 de surse internaționale de știri diferite. Pentru un subset de aproximativ 15.000 de articole pe zi în opt limbi, aplicăm tehnicile de clustering ierarvate nesupravegheate la articolele legate de grup separat pentru fiecare limbă. Apoi, urmărim clusterele de știri legate în cadrul aceleiași limbi și în șase din limbile (Po aliquen și colab., 2004b) 1. Instrumentele de recunoaștere a numelui JRC sunt aplicate fiecăruia dintre aceste clustere, adică fiecare grup de texte conexe este tratat ca un meta-text, pentru care se extrage numele persoanei și locurile geografice și sunt identificate cuvintele cheie.

4After care dau un anumit fundal la transliterarea numelui și referindu-se la locul de muncă asociat (fundal secțiune și muncă conexă), descriem instrumente pentru a identifica numele în text (secțiunea Recunoașterea corectă a numelui) și mecanismul de îmbinare Variante de nume, inclusiv cele scrise în scriptul chirilic, arab și grec (detectarea secțiunii și variante de fuziune). Acest lucru este urmat de rezultatele evaluării (evaluarea secțiunilor) și de o secțiune privind relațiile de învățare între oameni și modul în care informațiile generate automat pe nume pot fi utilizate în analiza de știri automate (secțiunea utilizând nume pentru a explora colecțiile de documente).

Tabelul 1: Prezentare generală a numelui persoanei recunoscute în diferite limbi în care diferitele ortrograme se referă la aceeași persoană.

Tabelul 1: Prezentare generală a numelui persoanei recunoscute în diferite limbi în care diferitele ortronii se referă la aceeași persoană.

italica fiind cuvântul (cuvintele) de declanșare recunoscute .

fundal și muncă conexă

5Aceasta secțiune oferă un anumit fundal și puncte pentru aplicațiile de ultimă oră privind recunoașterea entității numită (a se vedea recunoașterea entității numită), Transliterarea numelor de persoană și cartografierea acestora cu variante europene de nume (a se vedea transliterarea numelor proprii) și utilizarea graficelor care arată relațiile dintre persoane (a se vedea hărțile de relații).

Recunoașterea entității numită

6 deși recunoașterea entității numită (NER) este o zonă de cercetare cunoscută (de exemplu, MUC-6 1995, Daille &

Morin 2000), recunoașterea entității multilingve este destul de nouă (ACL-Mlner 2003, POIBEAU 2003). Mai mult, aspectul încrucișat (detectarea acelorași nume între limbi) este adesea limitat la perechi de limbi unice sau poate fi instruit numai în textul paralel.

Numele de 7 persoane pot fi recunoscute în text (A) printr-o Procedura de căutare Dacă există o listă de nume cunoscute, (b) analizând contextul local (de exemplu, numele de familie al președintelui), (c) deoarece o parte a unei secvențe de cuvinte candidate este o componentă de nume cunoscută (de exemplu, numele de familie „Ioan” sau (d) deoarece secvența părților înconjurătoare de discurs indică unui tagger pe care un anumit grup de cuvinte este probabil să fie un nume. Uneori, abordările de învățare a mașinilor sunt utilizate pentru recunoașterea numelor în contextul lor, privindu-se la cuvintele care înconjoară numele cunoscute.Pentru limbile europene, este suficient să se ia în considerare numai cuvintele majuscule. Alte limbi, cum ar fi arabă, nu distinge cazul. La JRC, folosim în prezent metode (a) până la (c), dar nu folosesc Taggers Part-of-Speech, deoarece nu avem acces la astfel de software pentru toate limbile de interes. În prezent, restricționăm recunoașterea numelor constând din cel puțin două părți. Până acum, accentul a fost pus pe numele oamenilor, dar recunoaștem, de asemenea, câteva nume de organizații.

Transliterarea numelor proprii

  • 2 O căutare pe Google oferă o idee despre utilizarea fiecărei ortografii ca:
    Mohammed: 7,410,000
    Mohamed : 5, (…)

8traniteration este procesul de reprezentare a cuvintelor dintr-o limbă care utilizează alfabetul sau sistemul de scriere al unei alte limbi (Arbabi și colab., 1994). Transliterarea este utilizată pentru formularea conceptelor existente într-o singură limbă (de exemplu, legea Sharia) în alta sau pentru raportarea despre numele persoanelor, organizațiilor sau locurilor. Transliterarea dintr-o limbă ca Arabic ar diferi în funcție de limba țintă. Un exemplu este numele arabic ÃÍÃï, care ar putea fi transliterat în limba engleză ca „muhamed” sau „muhamed”, în timp ce o transfrontaliere franceză probabilă ar fi „Mohamed” sau „Mohammed’.2

Specificitatea numelor de persoane transliterări

9Many Publicații, site-uri web și scheme de transliterație există pentru limbi care utilizează alfabetele chirilice, grecești sau arabe, dar majoritatea se aplică cuvintelor generale, mai degrabă decât la numele persoanei. Diferența fundamentală dintre transmiterea cuvintelor de limbă naturală și denumirile de transliterare este că pronunția cuvintelor urmează în mod normal câteva convenții, ceea ce înseamnă că pot fi utilizate reguli de echivalență lingvistică artizanală. În timp ce același lucru poate fi parțial adevărat pentru numele aceleiași limbi (de exemplu, numele rusești în textul rusesc), transliterația devine mai dificilă atunci când numele găsite sunt de origine internațională – așa cum este adesea cazul articolelor de știri. De exemplu, într-un articol de știri ruse este probabil că se găsesc numele de origine franceză, italiană, engleză sau arabă. Pentru a translite atât de multe nume internaționale, ar fi necesar să cunoaștem sursa numelui, deoarece acest lucru ne spune despre echivalența lingvistică țintă. Dacă originea numelui Chirac, de exemplu, este cunoscută ca fiind franceză, atunci este pronunțată ca / ʃi1ak / și ar trebui să fie transcrisă ca ôíñçß în arabă sau ширак în limba rusă. Cu toate acestea, dacă ar fi un nume italian, acesta ar fi pronunțat ca / kirak / și transliterat ca ßíñçß în arabă și Кирак în limba rusă.

se ocupă de multe perechi de limbi

10becaus de dependența lingvistică a transliterării, lucrările anterioare în transliterarea numelui automat a fost întotdeauna efectuată pentru perechi de limbi specifice, cum ar fi limba chineză-engleză sau Rusia-engleză, după cum se poate observa în enumerarea mare a lucrărilor anterioare din Lee și colab. (2005). Deși este probabil ca această limitare a perechilor de limbi specifice să producă rezultate mai bune decât abordarea noastră mai independentă de limbă, astfel de abordări dependente de limbă nu sunt o opțiune utilă în contextul sistemului nostru de analiză de știri extrem de multilingv, care vizează abordarea a douăzeci sau Mai multe limbi și unde limba originală a numelor nu este de obicei cunoscută.

Provocări de transliterare

11 Transliterarea numelor din fiecare sistem de scriere reprezintă propria provocare. Scripturile chirilice și grecești par a fi cele mai asemănătoare cu scriptul latin, în care sunt practic fonetici: literele sau grupurile de litere corespund sunetelor specifice. Problemele majore sunt (a) echivalențele literelor foneme sunt într-o relație N-to-N (adică o scrisoare poate fi adesea pronunțată în moduri diferite și un anumit sunet poate fi scris cu litere diferite) și (b) inventarul fonemului În diferite limbi (și sisteme de scriere) diferă: dacă o limbă nu cunoaște un sunet, va translitera acest sunet de către un altul similar. Când transliteră numele, ortografia este astfel probabil să fie greșită. De exemplu, sunetul german și englez pentru litera „h” este necunoscut în limba rusă și este frecvent transliterat în „Г”, pronunțat / g /. Exemple sunt numele orașului Heidelberg (Гейдельберг „, Pronunțate / Gejdɛljberk /) și Harry Potter (Гарри поттер, Pronunțate / Garipotɛr /). Când aceste nume se găsesc în textul rusesc și sunt transliterate în limba engleză sau germană, ei vor apărea astfel ca „geidelberg” și „Gari Potter” sau similare.

Provocări specifice pentru transliterarea arabă

12arabic nu are sunete / p /, / v / și / g /. „Paul” este transcris ca بول / bol /, „valery” ca فاليري (/ Falry /) și „Globe” ca غلوب (/ 1Lo: b /). Un nume precum „Vladimir Putin” va fi, prin urmare, transliterat ca فلاديمير بوتين (/ Fladimi: R buti: n /).

13Transliterarea de la limbile arabă la limbi care utilizează alfabetul latin (romanizare) este de asemenea dificil de faptul că vocalele scurte nu sunt de obicei scrise în limba arabă. Orice efort de romanizare include, prin urmare, vocalizarea, adică inserția vocalelor scurte în limba țintă (Arbabi, 1994). Deoarece dialectele arabe diferă în pronunția, vocalizarea este în mod clar dependentă de dialect. Acest lucru este probabil motivul pentru care, pentru ortografia unică a numelui arabic óáíãçä, patruzeci de tranziri diferite pot fi găsite, inclusiv „Salayman”, „Seleiman”, „Solomon”, „Suleiman” și „Sylayman”.

provocări pentru limbi care utilizează ideografii

14transliteration în limbi cu un sistem de scriere ideografică, cum ar fi chineză, în care fiecare simbol este echivalent cu un concept, mai degrabă decât un sunet, trebuie abordat un mod complet diferit. Chinezii are un sistem de silabe numite Pinyin (SWOFFORD 2005), o combinație de sunete inițiale și finale care pot fi utilizate pentru a construi aproximativ 300 de silabe. Când transliteră numele non-chinezești, o apropiere cea mai apropiată de silabă-silabă este privită și pentru fiecare silabă o ideogramă chineză corespunzătoare poate fi aleasă din lista diferitelor variante de tonuri. Transcrierea unui nume englez sau german va consta astfel dintr-o concatenare a silabelor chineze. De exemplu, „Beethoven” ar fi reprezentat în Pinyin ca „Bej-do-Fen”.

Metode de transliterare

15EXISTING Denumirea automată a sistemelor de transliterare fie folosesc reguli lingvistice artizanale, sau folosesc metode de învățare a mașinilor (de exemplu, Lee et al., 2005) sau o combinație a celor două. Arbabi și colab. (1994), de exemplu, utilizează reguli lingvistice și rețele neuronale pentru a vocifere și denumiri romane arabe, precum și filtrarea formelor țintă țintă improbabilă. Lee și colab. (2005) Învățați transliterarea numelui din listele mari bilingve chineze-engleză ale numelor proprii, utilizând algoritmul de maximizare a așteptărilor. Ele nu utilizează dicționar de pronunție sau scoruri de similitudine fonetice generate manual. La JRC, folosim regulile de transliterare manuală. Ieșirea este apoi prelucrată prin reguli de substituție mai puțin artizanale pentru a produce o reprezentare standard internă (vezi secțiunea Detectarea și îmbinarea variantelor de nume).

Maps relații

16 Când un instrument de scule Numele persoanelor din documente, generează implicit informații utile cu privire la co-apariția persoanelor. Ben-Dov și colab. (2004), care au lucrat atât la detectarea relațiilor, cât și pe vizualizarea acestora, citat: „Cunoașterea poate fi creată prin desenarea inferenței față de ceea ce este deja cunoscut” (Davies 1989). Astfel de cunoștințe sau informații pot fi vizualizate cu hărțile relației.

17in Principiul, două metode pot fi utilizate pentru a genera informații de relație: (a) observarea co-apariției numelor în același text și (b) utilizarea regulilor sintactice-semantice de detectare relații mai specifice între persoane. Dacă două persoane sunt adesea menționate în același document (informații privind co-apariția), acestea sunt susceptibile de a fi într-o anumită relație. Această relație este dificil de etichetat, deoarece ar putea fi prietenie, rivalitate, relație de familie, aparținând aceleiași organizații, participarea la aceeași întâlnire etc. Un sistem bazat pe reguli, pe de altă parte, ar fi capabil să detecteze mai specifice relații. Ben-Dov și colab. (2004) Comparați ambele abordări și ajungeți la concluzia că, atunci când căutați informații despre întâlniri comune, algoritmii co-apariții prezintă o rechemare bună, dar sunt rele pentru precizie, în timp ce inversul este valabil pentru metodele bazate pe reguli. Autorii estimează că regulile de scriere pentru a identifica „participarea la o întâlnire comună” ia un programator între una și trei săptămâni pentru o singură limbă, presupunând că este disponibil un parser adecvat. Avantajul abordării bazate pe co-apariție, utilizat de JRC, este că nu trebuie să fie scrise reguli și că aceleași formule matematice pot fi utilizate pentru a descrie relațiile (co-apariție) în toate limbile.

18 Maps de coniventare a sistemului comercial, prin conivencenturi, prezintă relații între actorii din știri, dar nu oferă detalii despre algoritmii utilizați (vezi http://www.connivences.info/ Vizitat ultima dată 06 / 06/2005).

Recunoașterea corectă a numelui

19AT JRC, adăugăm toate numele detectate în timpul analizei noastre de știri zilnice într-o bază de date cu nume cunoscute, astfel încât aceste nume să fie recunoscută în viitor printr-o procedură simplă de căutare (metoda (a) descrisă în secțiunea numită Recunoașterea entității). După un an de analiză de știri, baza de date a crescut la aproximativ 150.000 de nume distincte (fără a număra variante de același nume; a se vedea secțiunea Detectarea și îmbinarea variantelor de nume). Mai mult de 500 de nume noi sunt inserate în fiecare zi. Din motive de performanță, se utilizează un automat finit de stat finit unicode (UTF-8).Un set de expresii regulate este generat pentru fiecare intrare a bazei de date ca intrare la utilitarul Flex (Paxson 1995), care generează automatul. Pentru a exclude recunoașterea variantelor de nume datorate erorilor de tastare, automatizarea doar caută numele care au fost găsite cel puțin de două ori. Până în prezent, instrumentul caută astfel aproximativ 50.000 de persoane, reprezentând aproximativ 60.000 de ortrimi diferite.

cuvinte de declanșare

20to Ghici Nume noi (metoda (b) descrisă în secțiunea Numed entitate Recunoaștere), O listă extinsă de modele locale a fost dezvoltată într-o procedură de legare la boot: am scris prima dată modele locale simple în Perl pentru a recunoaște numele într-o colecție de trei luni de știri engleză, franceză și germană. Apoi am analizat cele mai frecvente contexte din partea stângă și dreaptă a listei rezultate ale numelor cunoscute. Pentru engleza singur, avem în prezent aproximativ 1.100 de modele locale, constând din titluri („Dr.”, dl „, etc.), adjective de țară (cum ar fi” Estonian „), profesii (” actor „,” jucător de tenis „, etc.), modele specifice (cum ar fi „Anul Anului”), etc. Ne referim la aceste modele locale ca fiind cuvinte de declanșare. Pentru fiecare limbă adăugată, difuzoarele native traduc listele de model existente și folosesc aceeași procedură de bootstrapping pentru a completa modelele.

24th Formats permit programului să recunoască nume noi (adică în „medicul american John Smith”), dar o listă stocată de astfel de modele este, de asemenea, utilă pentru a oferi utilizatorilor informații suplimentare despre persoane. În exemplul anterior, de exemplu, utilizatorul va vedea că John Smith probabil este un medic american. Când un nume este adesea folosit cu aceleași cuvinte de declanșare, măsurile statistice pot fi utilizate automat pentru a califica numele. De exemplu, George W. Bush va fi recunoscut ca fiind președintele american, Rafik Hariri ca fiind „fostul prim-ministru libanez” etc.

22 Current JRC are reguli pentru următoarele limbi: engleză, franceză , Germană, spaniolă și italiană. Într-o anumită măsură, avem și niște modele olandeze, estoniene și slovene. O primă versiune a Rusiei este aproape gata, arabă este în curs de dezvoltare. Scopul este de a include toate cele douăzeci de limbi oficiale ale țărilor Uniunii Europene și ale țărilor candidate.

Tabelul 2: Două exemple de modele utilizate pentru a recunoaște Tony Blair și Romano Prodi în textele slovene

Tony (A | O | U | OM | EM | M | JU | JU | JEM)? \ S + BLAIR (A | O | U | OM | EM | M | JU | JE | JA)

Roman (A | O | U | OM | EM | M | JU | JEM | JA)? \ S + PRODI (A | O | U | OM | EM | M | JU | JEM | JA) ?

Realing cu declenire

23 În unele limbi, în special în limbile slavone și finno-ugric, atât modelele locale, cât și numele corespunzătoare sunt inflexibile și pot avea sufixe, ca pot fi văzute în exemplul slovene „Tožba Proti Donaldu Rumsfeldu Zaradi Mučenj”. Automaton să recunoască numele, prin urmare, trebuie să permită o varietate de sufixe (în exemplul dat, sufixul „U” a fost adăugat la numele Donald Rumsfeld). Unele dintre regulile scrise manual utilizate la JRC pentru detectarea numelor persoanei și a locului constau doar din listele de sufixe posibile pentru fiecare nume. Altele sunt mai complexe, de exemplu, folosind funcții de substituție pentru a detecta noul yorgil estonian ca o inflexie a New York-ului sau detectarea faptului că „O” din Romano Prodi face parte din numele și nu ar trebui să fie identificat ca „sufixul lui Textul slovene. Tabelul 2 prezintă două liste de sufix de eșantioane care sunt necesare pentru a detecta nume cunoscute în textul slovene. Tabelul 3 enumeră regulile utilizate pentru a genera variante inflexibile pentru nume rusești din baza noastră de date.

Tabelul 3: Reguli simplificate pentru a construi un model care recunoaște toate declensii posibile ale unui nume dat în textul rus.

Tabelul 3: Reguli simplificate pentru a construi un model care recunoaște toate declensii posibile ale unui nume dat în textul rusesc.

Depozitarea numelor într-o bază de date

împreună cu informații despre unde și când numele a fost găsit și cu informații despre limba textului. Sunt stocate cuvintele de declanșare în jurul valorii de nume. Fiecare nume distinct este atribuit unui identificator numeric. Variantele identificate pentru același nume (vezi secțiunea Detectarea și îmbinarea variantelor de nume) sunt stocate cu același identificator. Pentru a adăuga variante de nume suplimentare, în special în limbile neeuropene, căutăm în mod automat enciclopedia online Wikipedia3 pentru toate numele din baza noastră de date (Cf. Figura). Când există o intrare Wikipedia, adăugăm adresele URL corespunzătoare în baza de date pentru a permite utilizatorilor să găsească informații suplimentare despre o anumită persoană. În plus, copiem fotografia persoanei, atunci când este disponibilă.

25 Când am detectăm nume noi, folosim un instrument de potrivire fuzzy pentru a detecta automat dacă numele este o variantă a unui nume deja prezent în Baza de date (a se vedea secțiunea Fuzzy de potrivire a variantelor de nume).

Tabelul 1 demonstrează cât de dificilă recunoașterea numelui poate fi între limbi.

Table 1 demonstrates how difficult the name recognition can be across languages.Tabelul 1 demonstrează cât de dificilă recunoașterea numelui poate fi între limbile.

26entry pentru Rafik Hariri în Enciclopedia Wikipedia (http://en.wikipedia.org/ wiki / rafik_hariri) și unele variante de nume detectate automat

Detectarea și Furgând variante de nume

27 pentru nume de nume, mai multe variante sunt utilizate în mass-media, nu numai în limbile (vezi tabelul 1), dar adesea chiar în aceeași limbă (în 50 de articole engleze publicate pe 14 aprilie 2005, am găsit patru orfe: Rafik Hariri, Rafik Al-Hariri, Rafiq Hariri și Rafiq al-Hariri). Pentru a permite utilizatorilor să găsească informații despre anumite persoane independent de numele de ortografie, ne propunem să stocrim toate variantele de nume împreună cu un identificator numeric unic.

28 Utilizarea ortografiei numelui (descrisă în secțiunea Fuzzy potrivire a variantelor de nume), în prezent îmbinăm candidații varianta de nume automat dacă se găsesc în același cluster de știri și dacă scorul lor de similitudine este suficient de mare (70 %). Deoarece clusterele pot consta în între 2 și 100 de articole vorbind despre același eveniment (pentru detalii, a se vedea Pouluiquen et al., 2004b), este foarte probabil ca două variante ale aceluiași nume de nume să se găsească în același cluster.

<

  • 4 Articolul a intenționat, de fapt, să vorbească despre Daniella Cicarelli („Recomeración de la Modelo (…)

29 sunt sistemul de potrivire a numelor Limbile sunt încă în curs de dezvoltare, variantele de numere încrucișate se efectuează în prezent numai dacă două variante sunt extrem de aproape (de exemplu, similitudinea mai mare de 95%). Când se detectează un nume nou, se calculează similitudinea acesteia cu toate celelalte nume. Apoi procesul îmbină automat nume similare (a se vedea tabelul 4 pentru exemplele compilate pentru o zi). Pentru celelalte (similitudine între 80% și 95%), sistemul afișează o listă de nume noi similare cu cele anterioare (candidați la varianta), solicitând un om confirmarea înainte de a le fuziona. După cum se arată în exemplele din tabelul 5, toate numele pentru acea zi trebuie să fie fuzionate. Chiar și cazul lui Daniel Cicarelli sa dovedit a fi o greșeală, astfel încât cele două nume să fie fuzionate4.

30a Nu avem în prezent considerăm contextul numelor, s-ar putea întâmpla ca sistemul să îmbină nume precum „Mariana Gonzalez” (un gardr de garduri) și „mariano gonzalez” (un fotbal argentinian jucător). Prin urmare, sistemul permite intervenția manuală să corecteze numele incorect a fuzionat sau pentru a îmbina două variante care nu au fost detectate automat.

31a prezentate în tabelul 4, tabelul 5 și nota de subsol 4, sunt destul de multe nume greșite în știri, dar este important să le capturați oricum pentru a îmbunătăți rechemarea.

Tabelul 4: Lista de nume extrem de similare găsite în știrile unei singure zile (30 mai 2005).

Alan McDonald

bahia al-hariri

d

div id =

Michael Haephrati

Aceste variante sunt fuzionate automat.

Tabelul 5: Lista de nume noi similare (30 mai 2005).

fuzionat cu numele existent:

Abdullatif Senner

ABUBAKAR TANKO

Allan McDonald

bahiya al-hariri

brian herta

Hassan Mohamed Nur

hassan moha Med Nuur

josé Luis Lingeri

Mohammed Dhiaa

sal OME ZURABISHVILI

Stanley Fisher

Stanley Fischer

surat ikramov

trudi stevenson

Werner Schneyder

div id = ”

Russ Young

gary shafer

Saad al-Hariri

Pierre Gadonneix

Abdullahi Yusuf

Înainte de a fuziona aceste variante, este necesară confirmarea manuală.

32De la utilizarea diferitelor scripturi în limba greacă, rusă și arabă, fuziunea numelor în aceste limbi parțial diferă de procesul utilizat pentru limbile scrise cu alfabetul roman.

Normalizarea ortografiei numelui

33 Numele variantelor între limbi se datorează adesea omisiunii diacritice. De exemplu, un ziar britanic se poate referi uneori la François Mitterrand ca Francois Mitterrand. O serie de variații obișnuite pe care le-am observat sunt singulare de consoane duble, transcrieri de f de pH (de exemplu, Ralph Schumacher), utilizarea alternativă a W sau V în numele rusești (de exemplu, Wladimir vs. Vladimir), ortografii alternative ale sunetului ” „ca u sau ou etc. În limbi precum lituaniană, transcrierile sunt comune (de exemplu, Buš pentru Bush). Prin urmare, am decis să dezvoltăm o reprezentare standard internă, ISR, care are scopul pragmatic de a lega variantele, fără a dori să facă pretenții teoretice de orice fel.

Înainte de a calcula o similitudine între perechi de nume, toate numele sunt standardizate utilizând un set de aproximativ 30 de reguli de substituție. Exemplele sunt:

    caracterul accentuat → echivalent non-accentualizat

  • dublu consonant → un singur consonant

  • OU → U

  • wl (începutul namei) → VL

  • OW, EW (sfârșitul de nume) → ov, eV

  • k k

  • pH → F

  • š → sh

34Acest Lista regulilor de substituție poate conține, de asemenea, cele mai multe Excepții frecvente care nu sunt acoperite de regulile generice (de exemplu: Джеймс = >

    jacques chirac → Jak shirak

  • wladimir ustinow → Vladimir Ustinov

  • abdalah džburi →

  • abdallah joubouri → Abdalah juburi

  • malik saïdoullaïev → Malik Saysulaiev

  • Malik SayulLajEw → Malik SayaLev

Transliterarea scripturilor non-latine

35 pentru greacă, rusă și arabă, care nu utilizează scriptul latin, folosim reguli de transliterare și adaptare manuală pentru a reprezenta nume cu alfabetul latin. Transliterarea constă într-o serie de reguli de substituție care înlocuiesc una sau mai multe caractere non-latine cu una sau mai multe caractere latine. Pentru limba greacă, de exemplu, se aplică următoarele substituții:

  • λ → l

  • θ → th

  • μπ → b

6 După transliterarea, regulile de normalizare descrise în secțiunea anterioară normalizarea ortografiei numelice sunt aplicate. Rezultatele transliterației și standardizării sunt adesea fonetice (de exemplu, „bil klinton”, „jak shirak” etc.), dar sunt suficient de asemănătoare cu reprezentarea standard pentru a produce rezultate bune în procesul de potrivire fuzzy (vezi secțiunea de potrivire fuzzy a Numele variantelor). Exemplu de rezultate pentru transformările grecești, chirilice și arabe sunt:

  • κόφι ανάν (greacă) → Kofi Anan

  • Кофи аннан (rusă ) → kofi anan

  • кофи анан (bulgare) → kofi anan

  • ßæýí úäçä (arabă) → Kufi Anan

  • कफफफ अन्नान (hindi) → kofi anan

Grecia, chirilică (rusă, bulgară și ucraineană), arabă (inclusiv Farsi și Urdu) și Devanagari (Hindi și Nepali). Scrierea regulilor pentru transliterarea scriptului Devanagari a durat aproximativ 2 ore.

Corectarea fuzzy a variantelor de nume

38in Pentru a identifica variantele potențiale de nume (ca cele din tabelul 5), efectuăm o comparație cu perechi de toate denumirile transliterate și standardizate. Dacă similitudinea perechii de nume este deasupra unui anumit prag, numele sunt candidați variante.

figura 2

Figura 2

Exemplu de proces de potrivire între un nume chirilic (rus) și un nume latin (francez).

39 pentru calculul similitudinei combinăm trei măsuri de similitudine. În prezent, luăm media celor trei măsuri, dar intenționăm să evaluăm impactul relativ al fiecăruia dintre aceștia pentru a-și optimiza greutatea relativă pentru calculul similitudinei.

40 Cele trei măsuri se bazează pe similitudinea ngramei de litere : Calculăm cosinia listelor de frecvență a ngramelor de literă pentru ambele nume, separat pentru bigrams și pentru trigrame. A treia măsură este cosinul bigrams bazat pe șiruri fără vocale. Nu folosim transcrieri fonetice ale numelor, deoarece acestea sunt raportate a fi mai puțin utile decât abordările asemănătoare șirului (Zobel & dart, 1995). Mai mult, regulile de transcriere fonetică sunt diferite de limbă la limbă (de exemplu, Chirac ar fi pronunțat în italiană ca / kirak /) și găsirea regulilor de transcriere pentru multe limbi ar fi dificil.

41figure 2 oferă o imagine de ansamblu a procesului de comparare a unui nume francez cu omologul său rus scris cu litere chirilice.

variație specială pentru a face față arabic

42standard Arabă scrie vocale lungi și adesea omite pe cele scurte. Atunci când comparăm numele scrise în limba arabă, cu nume scrise cu alfabetul latin, prin urmare ștergem vocalele de la acesta din urmă înainte de calcularea similitudinii. De exemplu, reprezentarea standard a standardului pentru numele Condoleezza Rice este „Kondoleza Rice”. Același nume scris în Arabă este ßæäææíòç ōçíó. Rezultatul transliterației și standardizării versiunii arabe a numelui este „Konduliza Rais”. Cosina bigramilor dintre aceste două reprezentări fără vocale („Kndlz RC” și „Kndlz Rs”) este destul de mare (0,875), astfel încât cele două nume scrise cu arabă și scripturile latine sunt identificate cu succes ca variante de nume.

43figure 3 rezumă procesul de potrivire pentru un nume arabic.

Figura 3

Figure 3Figura 3

Exemplu de potrivire a numelui arabă / latină

Evaluarea recunoașterii de nume

44Our Focus nu este pus pe optimizarea recunoașterii entității numite pentru o limbă, ci mai degrabă în găsirea unei abordări care este ușor și rapid adaptat la limbi noi. Cu toate acestea, am lansat o evaluare a performanței instrumentului pentru diferite limbi:

  • 5

45 În fiecare limbă am ales o selecție aleatorie de aproximativ 100 articole de ziar. Am aplicat instrumentul de recunoaștere a numelui persoanei. Experții au enumerat toate numele persoanelor care au fost prezente în text. Pentru fiecare articol, am comparat apoi dacă fiecare dintre numele de persoană recunoscuți automat a fost selectat de expert (pentru a obține precizia), și dacă toate numele extrase manual au fost de asemenea găsite (pentru a obține rechemarea). Combinăm aceste două valori utilizând F-măsura5.

46Ne trebuie să subliniem că, spre deosebire de evaluarea recunoașterii de nume tradiționale, scopul nostru a fost de a identifica prezența sau ne-prezența unui nume în text și că nu era îngrijorarea noastră Identificați fiecare mențiune a numelui. În plus, ne-am limitat evaluarea la recunoașterea numelor persoanelor, ignorarea organizațiilor și a toponimelor. Rezultatele sunt rezumate în tabelul 6.

Tabelul 6: Evaluarea recunoașterii numelui persoanei în diferite limbi.

Ross Young

Mohammed Dhia

Brian Vilora

Saad al-Harir

… (cu totul 24 de propuneri) …

daniel cicarelli

d

# texte

div id id =

iv id = „

div id = „

spaniol

italian

iv id = „

47 Rezultatele sunt mai puțin bune decât pentru sistemele de recunoaștere a entității numite care utilizează o parte din vorbire Taggers, sunt optimizate pentru o anumită limbă și nu vizează o multilingvitate atât de mare. Precizia noastră este totuși în mod rezonabil ridicată. În setarea noastră, în cazul în care încercăm să detectăm numele în clustere de știri, în loc de articole individuale, rechemarea inferioară nu este o problemă mare, deoarece numele se găsesc de obicei în cel puțin unul dintre articole, astfel încât persoana pentru cluster să fie adesea complete.

48 Scorul redus de rechemare ar putea fi datorat naturii setului nostru de testare eterogenă: setul nu numai că include articole din mai multe domenii diferite (politică, rezultate sportive, discuții ale programelor de televiziune etc.), dar și De la ziarele internaționale din întreaga lume (în special pentru textele limbii engleze).

49 Sistemul trebuie să analizeze articolele cum ar fi: „Phe Naimahawan, districtul MAE AI al lui Chiang Mai, a fost selectat (…) pentru a reprezenta Thailanda într-un eveniment de înot (…). Phe este ajutat de Wenhanee Rungruangspakul, lector de lege „. Fără etichetarea parțială a vorbirii, este dificil să ghiciți că „Phe Naimahawan” este un nume de persoană.Cu toate acestea, în același text, am reușit să ghiciți numele „Wanderhanee Rungruangspakul” datorită cuvântului declanșatorului „Lectorul Legii”.

50 Precizia mai mică pentru germană a fost previzibilă ca în germană Fiecare substantiv este majusculă, care adesea duce la sistemul care recunoaște substantive comune ca nume adecvate. În exemplul: „Die Österreichische Eishockey Nationalmannschaft Bekommt Während der Heim-Wm Noch Vrstärkung”, Eishockey Nationalmannschaft „(echipa națională de hochei pe gheață) este declanșată în mod greșit de” Österreichische „(Austrian).

51 Relativ rău Scorurile pentru limba spaniolă se datorează diferitelor fapte. Unul dintre ei a fost că nu aveam nume de bază de bază în listele noastre de nume și că multe nume basce au fost găsite în setul de testare. Un alt motiv a fost că sistemul nostru a recunoscut frecvent prima parte a denumirilor tipice de compuși spanioli. În cele din urmă, mai multe nume de organizații au fost clasificate de algoritm ca nume de persoană.

52 Explicația pentru rezultatele din Rusia inferioară este, în principal, că baza noastră de date a conținut doar o duzină de nume rusești, astfel încât sistemul să trebuiască să ghicească cele mai multe nume, ceea ce este mai greu decât să privească nume cunoscute.

Evaluarea transliterației

53An evaluarea imparțială a algoritmului de potrivire a variantelor pentru numele scrise cu scriptul latin nu este posibilă deoarece toate variantele frecvente sunt deja stocate în baza de date, iar unele dintre ele au fost deja verificate manual sau au fost adăugate prin căutarea Wikipedia (a se vedea secțiunea Depozitarea numelor într-o bază de date). Am putea fi doar capabili să testăm sistemul pe nume noi, dar pentru acestea nu am găsi variante în baza de date. Testarea sistemului pe variantele nevăzute anterior nu este deosebit de utilă. În schimb, am evaluat cât de precis sistemul a identificat echivalentul latin al numelor scrise cu litere chirilice (rusești) și arabe. În acest scop, doi vorbitori nativi au pregătit o scurtă listă de nume selectate aleatoriu pe care le-au găsit în știrile zilei. Apoi, am verificat dacă sistemul a propus sau nu versiunea europeană a acestui nume ca cea mai asemănătoare (cu un prag minim de 50%). Trebuie să subliniem că fiecare dintre nume a fost comparat cu ortografiile de 150.000 de persoane.

54Acest test ne permite să vedem dacă transliterarea, standardizarea și instrumentul de potrivire fuzzy funcționează corect. Mai mult, ne permite să validăm dacă baza noastră de date conține cele mai importante nume.

Figura 4

Interactive vizualizarea locurilor, a numelor și a termenilor găsiți în clustere de știri Baza de date, dar sistemul a returnat încă o propunere greșită. În alte două cazuri, persoana greșită a fost identificată. Restul de 50 de nume au fost potrivite cu succes la persoana corectă. Atât precizia, cât și rechemarea au fost astfel 94,3%.

56 Persoana care nu este prezentă în baza noastră de date a fost Robert Bradtke (Secretarul American pentru Afaceri Europene și Eurasiatice). Acest nume a fost potrivit cu Robert Bartko (un ciclist german).

57 Cele două lovituri false au fost Juncker Juncker (transliterat ca „Jan-Klod Yunker” și se potrivește cu Carsten Jancker) și Heinz Fischer ( Transliterat ca „Khaynts Fisher” și se potrivește cu Joschka Fischer).

Arabă Numele Variant Identificare

58Toate cele 30 de nume selectate au avut un echivalent latin-script în baza de date. Cu toate acestea, două nume nu au fost găsite și trei nume au fost atribuite persoanei greșite. Cele 25 de nume rămase au fost potrivite cu succes. Precizia este astfel 89,3% și rechemarea este de 83,3%.

59among Exemplele bune, Jean-Pierre Rafacarin, transliterat ca „Jan-Biar Rafaran”, era încă potrivită; și în mod similar Arnold Schwarzenegger, transliterat ca „Arnuld Shuarznijr”. Chiar și nume scurte, cum ar fi Jack paie, transliterate ca „Jak Stru”.

60 Cele două nume nu au fost găsite au fost cauzate de transliterația rea: John Garang are varianta arabă „æä þñäþ care a fost transliterat ca” Jon Qrnq „și nu a fost similar cu niciun nume din baza de date. Același lucru este valabil și pentru „æñì ßáæäí, care a fost transliterat ca” Jurj Kloni „și ar fi trebuit să fie identificat ca George Clooney.

Numele potrivite cu 61 de medale au fost John McCain, transliterat ca „Jon Mak Kin” (și se potrivește cu Jean Makoun), Colin Powell transliterat ca „Kuln Baul” și Michael Jackson ca „Maikl Jakson”. O soluție evidentă ar fi să adauge manual regulile de transliterare pentru cele mai comune nume (George, John, Michael etc.).

Identificarea variantei Farsi

  • 6 http://www.bbc.co.uk/worldservice/
  • 6222 Nume (găsite din articole online pe BBC World Service6) au fost selectate. Toți au fost de fapt în baza noastră de date, 20 au fost găsiți ca fiind cele mai asemănătoare, dar sistemul nu a găsit două nume (Îiçå Ç ی, Ali Khamenei și ÃÍÃï Óú ی ï ی, Mohammad Saeeedi).

Folosind nume pentru a explora colecțiile de documente

63 Uneltele de recunoaștere și potrivire a numelor fac parte dintr-un sistem mai mare pentru a analiza colecțiile de documente multilingve, prin gruparea documentelor conexe, extragerea informațiilor Din ele și vizualizând unele dintre

Figura 5

Newsexplorer Intrare pentru RAFIQ Hariri

64 rezultate. Un scop major al sistemului este de a permite utilizatorilor să se depună rapid prin cantități mari de documente. Următoarele secțiuni arată aplicații în care sunt utilizate automat numele de colecții de știri multilingve.

vizualizarea numelor pe hărți geografice

65 pentru fiecare grup de articole de știri similare detectate de sistemul europe Media Monitor System (EMM), extragem nume și generăm o hartă interactivă care arată acoperirea geografică a articolelor (Poulquen și colab., 2004a și 2004b; Vezi Cf. Figura 4). În plus, un număr de cuvinte cheie identificate pentru cluster și numele detectat în acest cluster sunt listate pe hartă. Pentru fiecare grup de articole de știri asociate, utilizatorii pot vedea astfel diverse aspecte de informare dintr-o privire. Într-o versiune personalizată a instrumentului, utilizatorii pot vedea, de asemenea, pe aceeași hartă care au fost găsite din termeni de căutare selectați manual. Harta este generată utilizând grafică vectorială scalabilă (SVG) și este interactivă, astfel încât utilizatorii să poată mări o zonă geografică specifică. Caracteristica interactivă le permite să vadă în plus contextul în care au fost menționate numele, persoanele și termenii, iar hyperlink-urile permit să sară la anumite pasaje de text. Acest instrument de vizualizare permite chiar utilizatorilor să obțină o imagine de ansamblu a conținutului colecțiilor de text scrise în limbi pe care nu le pot înțelege.

Nume Browser

66in Sistemul de știri al știrilor JRC, informațiile colectate în timpul analizei de știri multilingvate zilnice sunt stocate într-o bază de date relațională, astfel încât să poată fi informații despre evenimentele trecute, persoanele și locurile navigat. Pentru fiecare cluster, în în prezent opt limbi, sistemul ține evidența pe care oamenii sunt menționați împreună cu alte persoane, țări și cuvinte cheie. Deoarece baza de date este actualizată în fiecare zi, o rețea de linkuri se bazează în timp. De exemplu, baza de date poate fi interogată pentru toate clusterele de știri care menționează o anumită persoană și poate spune că alte persoane au fost menționate în aceleași clustere. Pentru fiecare cluster de știri, o legătură cu adresa URL originală a articolului cel mai tipic (medoidul, cel mai apropiat de Cluster Centroid) permite utilizatorilor să citească povestea.

O interfață web oferă acces la o interfață web la informațiile stocate despre fiecare persoană. Aceste informații includ:

  • informații despre persoana în sine: nume, variante de nume, fotografie (atunci când este disponibil);

  • clustere acest lucru a fost menționat persoana;

  • cuvintele de declanșare (titluri) cele mai frecvent identificate pentru clusterele asociate cu această persoană;

  • O listă a persoanelor asociate, adică acele persoane care sunt adesea menționate în aceleași clustere de știri.

67addițional, o listă zilnică VIP afișează persoanele cele mai adesea menționate în știrile despre În acea zi.

68AS Titlurile sunt stocate în baza de date, utilizatorul poate solicita, de asemenea, toate persoanele care au titlul „președinte georgian” și similare. Pentru detalii privind funcționalitățile de navigare, vezi Steinberger și colab. (2005).

699 din informație este exportată pe un site web public (http://press.jrc.it/NewsExplorer / /), așa cum se arată în figura 5.

Identificarea legăturilor dintre persoane

70 Când afișează persoanele asociate clasate pe frecvență, oamenii care se află în știri tot timpul (de exemplu, George Bush) vor apărea în aproape toate listele. Prin urmare, am introdus un factor de ponderare care permite denumirilor extrem de frecvente în greutate și să se concentreze asupra acelor nume care sunt asociate în mod specific cu o altă persoană dată. Formula de ponderare utilizează trei factori: numărul de clustere pe care fiecare persoană îl apare, numărul de clustere comune apar două persoane, iar numărul de „asociați alți” fiecare dintre persoane. Formula calculează o greutate specifică între două entități din baza noastră de date:

ecuația nr. 1. Greutatea relațiilor între două entități

Ecuația nr. 1. Greutatea relațiilor între două entități

71unde:

EI: entitate

Coe1, E2: Cluster Co-apariție între E1 și E2

ICFE1, E2: Frecvența cluster inversă a E1 și E2

Iasse1, E2: Frecvența asociației inverse a E1 și E2

Ecuația nr. 2. Cluster Co-apariție Greutate

Ecuația nr. 2. Greutatea co-apariției clusterului

unde:

CE1, E2: Numărul de clustere în cazul în care E1 și E2 apar împreună

Equationn ° 3. Frecvența cluster inversă

unde:

CE1, E2: Numărul de clustere în care E1 și E2 apar împreună

CEI: numărul total de clustere în cazul în care apare; i = 1,2

ecuația nr. 4. Frecvența de asociere inversă

Ecuația nr. 4. Frecvența asociației inverse

unde:

AIE: numărul total de entități care apar cu EI; i = 1,2

72 Lista ponderată a persoanelor asociate prezintă nume destul de diferite din lista de frecvență pură. Pentru secretarul general al Consiliului Uniunii Europene, Javier Solana, de exemplu, denumirile cele mai frecvent co-apar sunt politicienii bine-cunoscuți George Bush, Jacques Chirac, Yasser Arafat și Kofi Annan. În lista ponderată, cu toate acestea, cele două persoane de rang înalt sunt Christina Gallach (purtătorul de cuvânt al lui Solana) și Pierre de Boissieu (asistentul lui Solana). Aceste două persoane sunt mai puțin cunoscute, deoarece nu sunt menționate în afara contextului lui Javier Solana, dar numele lor sunt foarte strâns legate de Solana, deoarece sunt de obicei menționate în știri când se menționează Solana.

Afișare hărți de relații

Figura 6

Figura 6

Harta relațională care arată Rafik Hariri și 20 de persoane care sunt cele mai legate de el (n = 20)

  • 7 http://www.graphviz.org/

73Once Suntem capabili să ne în greutate relații între persoane, putem rezuma legăturile între persoane care utilizează o „hartă de relații” (vezi secțiunea Relația Hărți). Utilizăm software-ul GraphViz Open Source Graph Software7 și, mai exact, utilitatea NEATO pe baza algoritmului Kamada & kawai (1989), care utilizează un grafic 2-D pentru a afișa cea mai apropiată Noduri împreună. Pentru o anumită persoană a, oferim ca intrare un grafic non-orientat în care fiecare nod este o persoană și fiecare margine este o relație de co-apariție (utilizând greutatea descrisă în secțiunea anterioară care identifică legăturile dintre persoane). Un grafic durează ca parametru o persoană și calculează graficul nedirecționat. Un filtru permite apoi afișarea numai primele relații n (acele relații n au cea mai mare greutate). În figura 5, utilizatorul poate obține o imagine de ansamblu asupra persoanelor care apar împreună cu Rafik Hariri. Utilizatorul poate selecta apoi o altă persoană și poate afișa graficul corespunzător. Acest grafic este util pentru a oferi o imagine de ansamblu rapidă a diferitelor grupuri de persoane legate de această persoană a.

Concluzie și muncă viitoare

74many a instrumentelor menționate în această lucrare sunt deja în uz zilnic, dar alții trebuie să se maturizeze și să se stabilizeze. Măsurarea încrucișată a variantelor de nume produce deja rezultate utile pentru un sistem interactiv, dar fuziune a variantelor de nume nu pot fi încă complet automatizate, deoarece încă produce erori. Dorim să explorăm modul în care contextul clusterului a două nume poate fi utilizat pentru a îmbunătăți calitatea instrumentului de fuziune a numelui. Comparația seriei de timp ca în Schinyama & Sekine (2004) ar putea îmbunătăți precizia.

75Ve planificăm, de asemenea, mai mult timp pentru a îmbunătăți recunoașterea numelui în sine. Unele modele ar putea recunoaște numele organizațiilor. Dorim să explorăm sistemele de a extinde automat (sau semi-automat) modelele în limbi noi.

76 CURENTEM Folosim conținutul intrărilor Wikipedia numai pentru a obține legături încrucișate și imaginea fotografiei persoanei . Cercetarea interesantă ar fi pentru a afirma automat aceste texte Wikipedia pentru informații suplimentare. Relația dintre oameni, de exemplu, ar putea fi confirmată dacă o anumită persoană este menționată în pagina altcuiva.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

# regulile

# nume

Precizie

Recall

mediu

F-măsura