Corela (Italiano)

Ringraziamo l’intero team del settore della tecnologia web presso il CCR per fornirci i preziosi dati di notizie per testare gli strumenti, nonché per il loro supporto tecnico . Vogliamo anche ringraziare Carlo Ferigato che ci ha introdotto in varie tecniche di abbinamento fuzzy. Ringraziamo Tomaž Erdjavec per averci aiutato con la lingua slovena, e Helen Salak per fornirci conoscenze su Farsi.

INTRODUZIONE

1Many Le organizzazioni di grandi dimensioni monitorano continuamente i media, e in particolare le notizie, per rimanere informati su eventi di interesse e per scoprire cosa dicono i media su certe persone, organizzazioni, o soggetti. Strumenti software che pre-selezionano automaticamente gli articoli di interesse di notizie e che pre-elaborare la raccolta del testo scelto semplificano l’attività ripetitiva giornaliera del monitoraggio dei supporti. CRESTAN & DE LOUPY (2004) ha dimostrato che l’estrazione e la visualizzazione nominata entità aiutano gli utenti a sfogliare le raccolte di documenti di grandi dimensioni in modo più rapido ed efficiente. Questo sembra plausibile come, secondo Gey (2000), il 30% delle parole dei contenuti nelle notizie sono nomi propri.

2in News Analysis è importante sapere qual è il soggetto, che viene parlato, dove e quando accadde cose accadde e come è stato segnalato. Questo documento si concentra sulla presenza di nomi propri nelle notizie, cioè la parte dell’OMS dell’analisi. Il lavoro precedente si è concentrato sul rispondere alle domande a cosa (Pouliquen et al. 2004b), dove (Pouliquen et al. 2004a) e quando (Ignat et al. 2003). A causa dell’ambiente di lavoro altamente multilingue nella Commissione europea – un’organizzazione con venti lingue ufficiali – multilinguetta di strumenti e l’aspetto cross-linguale sono di primaria importanza.

  • 1 dimostrazione disponibile a http://press.jrc.it/NewsExplorer

L’analisi è applicata all’output del sistema Europe Media Monitor EMM (Best et al., 2002). EMM è un set di strumenti software che monitora una media giornaliera di 25.000 articoli di notizie in attualmente 30 lingue, derivante da 800 diverse fonti di notizie internazionali. Per un sottoinsieme di circa 15.000 articoli al giorno in attualmente otto lingue, applichiamo tecniche di clustering gerarchiche non riversate per gli articoli relativi al gruppo separatamente per ogni lingua. Abbiamo quindi rintracciato i gruppi di notizie correlate all’interno della stessa lingua e oltre sei delle lingue (Pouliquen et al. 2004b) 1. Gli strumenti di riconoscimento dei nomi del JRC sono applicati a ciascuno di questi cluster, cioè ciascun gruppo di testi correlati è considerato come un meta-testo, per cui vengono estratte le parole e le parole chiave geografiche.

4fter dando alcuni background sulla traslitterazione del nome e facendo riferimento al lavoro correlato (sezione Sfondo e lavori correlati), descriviamo gli strumenti per identificare i nomi nel testo (sezione correttamente il riconoscimento del nome) e il meccanismo per fondersi Varianti di nome, comprese quelle scritte in script cirillico, arabo e greco (sezione Rilevamento e fusione di varianti dei nomi). Questo è seguito da risultati di valutazione (valutazione della sezione) e da una sezione sulle relazioni di apprendimento tra le persone e come le informazioni generate automaticamente sui nomi possono essere utilizzate nell’analisi automatica delle notizie (sezione usando i nomi per esplorare le raccolte documenti).

Tabella 1: Panoramica del nome della persona riconosciuta in varie lingue in cui le varie ortografie si riferiscono alla stessa persona.

Il corsivo è il / i Parola di Trigger riconosciuto .

Sfondo e lavori correlati

5Questa sezione fornisce alcuni background e punti alle applicazioni statali in materia di riconoscimento di entità nominate (vedere il riconoscimento dell’entità nominata), Traslitterazione dei nomi della persona e della loro mappatura con varianti di nome europee (vedere la traslitterazione dei nomi propri) e l’utilizzo dei grafici che mostrano le relazioni tra le persone (vedi mappe di relazione).

Riconoscimento dell’entità denominata

6 Ho nominato riconoscimento dell’entità (NER) è un’area di ricerca nota (ad es. MUC-6 1995, DAILLE & MORIN 2000), il riconoscimento di entità denominato multilingue è abbastanza nuovo (ACL-Mlner 2003, Poibeau 2003). Inoltre, l’aspetto cross-liting (rilevando gli stessi nomi delle lingue) è spesso limitata a coppie di lingue singole o può essere addestrata solo sul testo parallelo.

I nomi dei 7 persone possono essere riconosciuti nel testo (A) attraverso A Procedura di ricerca se esiste un elenco di nomi noti, (b) analizzando il contesto locale (ad es. “Nome del presidente” cognome), (c) perché parte di una sequenza di parole candidati è una componente nota del nome (ad es. Cognome John) , o (d) perché la sequenza di parti circostanti-parlato indica a un tagger che un determinato gruppo di parole è probabile che sia un nome. A volte, gli approcci di apprendimento automatico vengono utilizzati per riconoscere i nomi nel loro contesto guardando le parole che circondano i nomi noti.Per le lingue europee, è sufficiente considerare solo le parole maiuscole. Altre lingue, come l’arabo, non distingueranno il caso. Al CCR, attualmente usiamo metodi (a) a (c), ma non utilizzare tagger a part-of-discorso, perché non abbiamo accesso a tale software per tutte le lingue di interesse. Attualmente limitiamo il riconoscimento ai nomi composti da almeno due parti. Fino ad ora, la messa a fuoco è stata sui nomi delle persone, ma riconosciamo anche alcuni nomi organizzativi.

Traslitterazione di nomi propri

  • 2 Una ricerca su Google dà un’idea dell’utilizzo di ogni ortografia come:
    Mohammed: 7.410.000
    Mohamed : 5, (…)

8Transliterazione è il processo di rappresentazione di parole da una lingua utilizzando l’alfabeto o il sistema di scrittura di un’altra lingua (Arbabi et al., 1994). La traslitterazione viene utilizzata per formulare concetti principalmente esistenti in una lingua (ad esempio la legge della sharia) in un altro, o per la segnalazione di nomi di persone, organizzazioni o luoghi. La traslitterazione da un linguaggio come l’arabo si differerebbe a seconda della lingua di destinazione. Un esempio è il nome arabo ãíãï, che potrebbe essere traslitterato in inglese come “Muhamed” o “Muhammed”, mentre una probabile traslitterazione francese sarebbe “Mohamed” o “Mohammed’.2

Specificità dei nomi della persona di traslitterazione

9Many Publications, siti Web e schemi di traslitterazione esistono per le lingue che utilizzano gli alfabeti cirillici, greci o arabi, ma la maggior parte di loro si applica alle parole generali piuttosto che ai nomi delle persone. La differenza fondamentale tra traslitterazione delle parole di linguaggio naturale e dei nomi di traslitterazione è che la pronuncia di parole segue normalmente alcune convenzioni, il che significa che possono essere utilizzate le regole di equivalenza linguistica artigianale. Mentre lo stesso può essere parzialmente vero per i nomi della stessa lingua (ad esempio nomi russi nel testo russo), la traslitterazione diventa più difficile quando i nomi trovati sono di origine internazionale – poiché spesso è il caso degli articoli di notizie. Ad esempio, in un articolo di notizie russo è probabile che i nomi di origine francese, italiana, inglese o araba siano trovati. Per traslittere in modo efficientemente tali nomi internazionali, sarebbe necessario conoscere la fonte del nome in quanto questo ci racconta sull’equivalenza della lingua di destinazione. Se l’origine del nome Chirac, ad esempio, è noto come francese, quindi è pronunciato come / ʃi1ak / e dovrebbe essere trascritto come ôíñçß in arabo, o ширак in russo. Tuttavia, se fosse un nome italiano, sarebbe stato pronunciato come / kirak / e traslitterato come ßíñçß in arabo e Кирак in russo.

Affrontare molte coppie linguistiche

10Percausa della lingua della lingua della traslitterazione, il precedente lavoro nella traslitterazione automatica del nome è sempre stato effettuato per specifiche coppie linguistiche come il cinese-inglese o Italiano russo, come si può vedere nella grande enumerazione del precedente lavoro a Lee et al. (2005). Sebbene sia probabile che questa limitazione a specifiche coppie linguistiche produca risultati migliori rispetto al nostro approccio più indipendente dalla lingua, tali approcci dipendenti dalla lingua non sono un’opzione utile nel contesto del nostro sistema di analisi di notizie altamente multilingue, che mira a trattare con venti o Più lingue e dove la lingua originale dei nomi non è di solito nota.

sfide di traslitterazione

11 La traslitterazione dei nomi da ciascun sistema di scrittura pone la propria sfida. Gli script cirillici e greci sembrano essere più simili alla sceneggiatura latina in quanto sono fondamentalmente fonetici: lettere o gruppi di lettere corrispondono a suoni specifici. I problemi principali sono (A) Le equivalenze della lettera fonema sono in una relazione N-TO-N (cioè una lettera può spesso essere pronunciata in diversi modi e un certo suono può essere scritto con lettere diverse), e (b) l’inventario del fonema In diverse lingue (e sistemi di scrittura) differiscono: se una lingua non conosce un suono, traslitterà questo suono di un altro simile. Quando si contrasse il nome del nome, l’ortografia è quindi sbagliata. Ad esempio, il suono tedesco e inglese per la lettera “H” è sconosciuto in russo ed è frequentemente traslitterato in “г”, pronunciato / g /. Esempi sono il nome della città Heidelberg (Гейдельберг ‘, pronunciato / gejdɛljberk /) e Harry Potter (Гарри поттер, pronunciato / GaripotɛR /). Quando questi nomi si trovano in testo russo e sono ribaltati in inglese o tedesco, appariranno così come “Geidelberg” e “Gari Potter”, o simili.

Sfide specifiche per la traslitterazione araba

12arabic non ha i suoni / p /, / v / e / g /. ‘Paul’ è trascritto come بول / Bol /, ‘valery’ come فاليري (/ faliry /) e ‘globe’ come غلوب (/ 1lo: B /). Un nome come “Vladimir Putin” sarà quindi traslitterato come فلاديمير بوتين (/ fladimi: r Buti: N /).

13Transtiterazione dall’arabo alle lingue con l’alfabeto latino (Romanizzazione) è reso inoltre difficile dal fatto che le vocali corte di solito non sono scritte in arabo. Qualsiasi sforzo di romanizzazione quindi tipicamente include la vocale, cioè l’inserimento delle brevi vocali nella lingua di destinazione (ARBABI, 1994). Mentre i dialetti arabi differiscono nella pronuncia, la vocale è chiaramente dipendente dal dialetto. Questo è presumibilmente il motivo per cui, per l’ortografia unica del nome arabo Óáíãçä, è possibile trovare quaranta diverse traslitterazioni, tra cui “Salayman”, “Seleiman”, “Solomone”, “Soliman” e “Sylayman”.

sfide per le lingue utilizzando Ideografi

14Transliterazione in lingue con un sistema di scrittura ideografico come il cinese, dove ogni simbolo è equivalente a un concetto piuttosto che in un suono, deve essere affrontato in un modo completamente diverso. Il cinese ha un sistema di sillabe chiamato Pinyin (Swofford 2005), una combinazione di suoni iniziali e finali che possono essere utilizzati per costruire circa 300 sillabe. Quando si traspliandano i nomi non cinesi, viene alzata una sillaba più vicina alla sillaba, e per ogni sillaba può essere scelto un ideogramma corrispondente cinese dall’elenco delle diverse varianti di tono. La trascrizione di un nome inglese o tedesco consiste quindi in una concatenazione di sillabe cinesi. Ad esempio, “Beethoven” sarebbe rappresentato in Pinyin come “bej-do-fen”. Metodi

per il traslitterazione

15existing I sistemi di traslitterazione dei nomi automatici utilizzano regole linguistiche artigianali a mano, Oppure usano metodi di apprendimento della macchina (ad es. Lee et al. 2005) o una combinazione di entrambi. Arbabi et al. (1994), ad esempio, utilizzare le regole linguistiche e le reti neurali per vocalizzare e nomi arabi romani e rumore, nonché per filtrare moduli di parole target improbabili eccessivamente generati. Lee et al. (2005) Impara la traslitterazione del nome da grandi elenchi di cinese bilingue-inglesi di nomi propri, utilizzando l’algoritmo di massimizzazione aspettativa. Non usano dizionari pronunciati o punteggi di somiglianza fonetica generati manualmente. Al CCR, usiamo regole di traslitterazione artigianale. L’output viene quindi elaborato da ulteriori regole di sostituzione artigianali a mano per produrre una rappresentazione standard interna (vedere la sezione Rilevamento e fusione di varianti dei nomi).

Mappe di relazione

16Quando un attrezzo Nomi della persona dai documenti, genera implicitamente informazioni utili sulla co-occorrenza di persone. Ben-DOV et al. (2004), che ha lavorato su entrambi i rapporti di rilevamento e visualizzandoli, citando: “La conoscenza può essere creata disegnando inferenza da ciò che è già noto ‘(Davies 1989). Tali conoscenze o informazioni possono essere visualizzate con mappe relazionali.

17in Principio, due metodi possono essere utilizzati per generare informazioni sulla relazione: (a) l’osservazione della co-occorrenza dei nomi nello stesso testo, e (b) l’utilizzo delle regole sintattiche-semantiche da rilevare relazioni più specifiche tra le persone. Se due persone sono spesso menzionate nello stesso documento (informazioni di co-occorrenza), è probabile che siano in una certa relazione. Questa relazione è difficile da etichettare, poiché potrebbe essere amicizia, rivalità, relazione familiare, appartenente alla stessa organizzazione, la partecipazione allo stesso incontro, ecc. Un sistema basato su regole, d’altra parte, sarebbe in grado di rilevare più specifici relazioni. Ben-DOV et al. (2004) Confronta entrambi gli approcci e arrivare alla conclusione che, quando alla ricerca di informazioni sulle riunioni congiunte, gli algoritmi basati sulla co-occasione presentano un buon richiamo, ma sono cattivi per la precisione, mentre l’inversione è vera per i metodi basati su regola. Gli autori stimano che le regole di scrittura per identificare la “partecipazione a una riunione comune” prende un programmatore tra una e tre settimane solo per una lingua, supponendo che sia disponibile un parser appropriato. Il vantaggio dell’approccio basato sulla co-occorrenza, utilizzato dal CCR, è necessario scrivere regole e che le stesse formule matematiche possono essere utilizzate per descrivere le relazioni (co-occorrenza) in tutte le lingue.

18 Le mappe di Connevence del sistema commerciale, di Connivendens, presenta relazioni tra gli attori nelle notizie, ma non forniscono dettagli sugli algoritmi utilizzati (vedere Ultima visitato 06 / 06/2005).

Riconoscimento del nome corretto

19at Il JRC, aggiungiamo tutti i nomi rilevati durante la nostra analisi giornaliera di notizie a un database di nomi noti, in modo che questi nomi possano quindi essere riconosciuto in futuro da una semplice procedura di ricerca (metodo (A) descritta nella sezione nominata Riconoscimento dell’entità). Dopo un anno di analisi delle notizie, il database è cresciuto a circa 150.000 nomi distinti (non contando varianti con lo stesso nome; vedere la sezione Rilevamento e fusione di varianti dei nomi). Più di 500 nuovi nomi vengono inseriti ogni giorno. Per motivi performance, viene utilizzato un Automato di stato di finito compatibile Unicode (UTF-8).È generata una serie di espressioni regolari per ciascuna voce del database come input per l’utilità FLEX (PAXSON 1995), che genera l’Automaton. Per escludere il riconoscimento delle varianti del nome a causa di errori di digitazione, l’Automas cerca solo i nomi che sono stati trovati almeno due volte. Ad oggi, lo strumento cerca quindi circa 50.000 persone, rappresentando circa 60.000 ortografie diverse.

Trigger parole

20per Guess New Names (metodo (B) descritto nella sezione Nominata Riconoscimento Entity), Un ampio elenco di modelli locali è stato sviluppato in una procedura di scatto: abbiamo scritto per la prima volta modelli locali semplici in Perl per riconoscere i nomi in una raccolta di tre mesi di notizie inglesi, francesi e tedesche. Abbiamo poi guardato i contesti laterali a sinistra e destro più frequenti del conseguente elenco dei nomi noti. Per soli soli italiano, attualmente abbiamo circa 1.100 modelli locali, costituiti da titoli (“Dr.”, “MR”, ecc.), Aggettivi country (come “Estonian”), Professioni (“Attore”, “Tennis”, ecc.), Motivi specifici (come “+ anni”), ecc. Ci riferiamo a questi modelli locali come parole innesco. Per ogni linguaggio aggiunto, gli altoparlanti nativi traducono gli elenchi dei pattern esistenti e utilizza la stessa procedura di bootstrapping per completare i modelli.

21Questi modelli consentono al programma di riconoscere i nuovi nomi (I.e. In ‘American Doctor John Smith’), ma un elenco memorizzato di tali schemi è anche utile per offrire agli utenti ulteriori informazioni sulle persone. Nell’esempio precedente, ad esempio, l’utente vedrà che John Smith probabilmente è un medico americano. Quando un nome viene spesso utilizzato con le stesse parole di trigger, le misure statistiche possono essere utilizzate per qualificare automaticamente i nomi. Ad esempio, George W. Bush sarà riconosciuto come il presidente americano, Rafik Hariri è il “ex primo ministro libanese”, ecc.

22Curtly the JRC ha regole per le seguenti lingue: inglese, francese , Tedesco, spagnolo e italiano. In una certa misura abbiamo anche alcuni modelli olandesi, estoni e sloveni. Una prima versione del russo è quasi pronta, l’arabo è in fase di sviluppo. L’obiettivo è includere tutte le venti lingue ufficiali dell’Unione europea e dei paesi candidati.

Tabella 2: due esempi di modelli utilizzati per riconoscere Tony Blair e Romano Prodi in testi slovene

Tony (A | O | U | OM | Em | m | ja | ju | jem)? \ s + blair (a | o | u | om | em | m | ju | jem | ja)

Roman (A | o | U | om | Em | m | ju | jem | ja)? \ s + Prodi (A | o | u | om | em | m | ju | jem | ja) ?

Affrontare la declinazione

23in alcune lingue, specialmente nelle lingue slaviche e finno-ugri ugri, sia i modelli locali che i nomi corretti sono gonfiati e possono avere suffissi, come può essere visto nell’esempio sloveno ‘Tožba proti donaldu rumsfeldu zaradi mučenj’. L’Automaton per riconoscere i nomi deve quindi consentire una varietà di suffissi (nell’esempio dato, il suffisso ‘U’ è stato aggiunto al nome Donald Rumsfeld). Alcune delle regole scritte a mano utilizzate al JRC per rilevare la persona e i nomi dei luoghi sono composti semplicemente da possibili elenchi suffissi per ciascun nome. Altri sono più complessi, ad esempio utilizzando le funzioni di sostituzione per rilevare il nuovo yorgile estone come inflessione di New York o rilevare che il “O” in Romano Prodi fa parte del nome e non dovrebbe essere identificato come “O’-Suffisso in Testo sloveno. La Tabella 2 mostra due elenchi di suffisso campione che sono necessari per rilevare nomi noti nel testo sloveno. La Tabella 3 elenca le regole utilizzate per generare varianti automaticamente gonfiate per i nomi russi nel nostro database.

Tabella 3: regole semplificate per costruire un modello riconoscendo tutte le possibili declpense di un dato nome nel testo russo.

Tabella 3: regole semplificate per costruire un modello riconoscendo tutte le possibili declpense di un dato nome nel testo russo.

Archiviazione dei nomi in un database

  • 3 http://en.wikipedia.org/

24names Identificati in una qualsiasi delle lingue analizzate vengono memorizzati automaticamente in un database , insieme alle informazioni su dove e quando il nome è stato trovato e con informazioni sulla lingua del testo. Anche le parole innescano intorno al nome sono memorizzate. Ogni nome distinto viene assegnato un identificatore numerico. Varianti identificate con lo stesso nome (vedere la sezione Rilevamento e fusione delle varianti dei nomi) sono tutte memorizzate con lo stesso identificatore. Per aggiungere ulteriori varianti di nome, specialmente nelle lingue non europee, cerchiamo automaticamente l’enciclopedia online Wikipedia3 gratuita per tutti i nomi nel nostro database (cf. figura). Quando esiste una voce Wikipedia, aggiungiamo gli URL corrispondenti al database per consentire agli utenti di trovare ulteriori informazioni su una determinata persona. Inoltre copiamo la fotografia della persona, quando disponibile.

25Quando rileviamo nuovi nomi, utilizziamo uno strumento di corrispondenza fuzzy per rilevare automaticamente se il nome è una variante di un nome già presente Il database (vedere la sezione Corrispondenza confusa delle varianti dei nomi).

La tabella 1 dimostra quanto è difficile il riconoscimento del nome può essere attraverso le lingue.

Tabella 1 dimostra quanto sia difficile il riconoscimento del nome in merito alle lingue.

26entry per rafik hariri nell’enciclopaedia wikipedia (http://en.wikipedia.org/ wiki / rafik_hariri) e alcune varianti di nome rilevate automaticamente

Rilevamento e Merging Name Variants

27 Per molti nomi di persone, diverse varianti vengono utilizzate nei supporti, non solo nelle lingue (vedi tabella 1), ma spesso anche all’interno della stessa lingua (in 50 articoli inglesi pubblicati il 14 aprile 2005, abbiamo trovato quattro ortografie: Rafik Hariri, Rafik al-Hariri, Rafiq Hariri e Rafiq Al-Hariri). Per consentire agli utenti di trovare informazioni su determinate persone indipendentemente dall’ortografia del nome, miriamo a memorizzare tutte le varianti di nome insieme a un identificativo numerico unico.

28Usuazione della somiglianza dell’orthografia (descritta nella sezione corrispondente corrispondente delle varianti dei nomi), attualmente unisce automaticamente i candidati varianti dei nomi se vengono trovati nello stesso gruppo di notizie e se il loro punteggio di somiglianza è abbastanza alto (70 %). Poiché i cluster possono consistere tra 2 e 100 articoli che parlano dello stesso evento (per i dettagli vedere PoggiQuen et al. 2004b), è molto probabile che due varianti dello stesso nome della persona si trovino nello stesso cluster.

  • 4 L’articolo ha in effetti intenzione di parlare di Daniella Cicrelli (‘Recensioni Separación de la Modelo (…)

29AS Il sistema per abbinare i nomi Le lingue sono ancora in fase di sviluppo, la fusione della variante del nome cross-linguale è attualmente eseguita solo se due varianti sono estremamente vicine (cioè la somiglianza superiore al 95%). Quando viene rilevato un nuovo nome, la sua somiglianza con tutti gli altri nomi è calcolata. Quindi il processo Unisce automaticamente nomi simili (vedere la Tabella 4 per gli esempi compilati per un giorno). Per gli altri (somiglianza tra l’80% e il 95%), il sistema visualizza un elenco di nuovi nomi simili a quelli precedenti (candidati varianti), chiedendo un essere umano conferma prima di unirle. Come mostrato negli esempi nella tabella 5, tutti i nomi per quel giorno devono essere fuso. Anche il caso di Daniel Cicrelli si è rivelato un errore di battitura in modo che i due nomi dovrebbero essere uniti4.

30s Non consideriamo attualmente il contesto dei nomi, potrebbe accadere che il sistema fonda nomi come “mariana gonzalez” (un annessante venezuelano) e “Mariano Gonzalez” (un calcio argentino giocatore). Pertanto, il sistema consente quindi l’intervento manuale di correggere i nomi uniti in modo errato o di unire due varianti che non sono state rilevate automaticamente.

31s mostrato nella tabella 4, tabella 5 e nota 4, alcuni nomi errati appaiono nelle notizie, ma è importante catturarli comunque al fine di migliorare il richiamo.

Tabella 4: Elenco dei nomi estremamente simili trovati nelle notizie di un solo giorno (30 maggio 2005).

NUOVO NOME

Unato con nome esistente:

Abdüllatif Sener

Abdulllatif Sener

ABUBAKAR TANKO

Aboubakar Tanko

ALAN MCDONALD

Alan McDonald

BAHIYA AL-HARIRI

BAHIA AL-HARIRI

Brian herta

Bryan HERTA

EID Cabalu

Eid kabalu

hassan mohamed nur

Hassan Moha Med Nuur

ismail al-hadithi

ismail al haithi

johana melka

Johanna Melka

José LUIS LINGERI

Jose Luis Lingeri

luis fernández

luis fernandez

Michael HAEFRATI

Michael Haephrati

Mohamed Dhia

mohammed dhiaa

nikolas sarkozy

Nicolas Sarkozy

salomé zurabishvili

sal ome zurabishvili

Sergei Brin

Sergey Brin

Stanley Fisher

STANLEY FISCHER

Surat Ikramov

MAURAT IKRAMOV

Trudi Stevenson

trudy stevenson

werner snneyder

werner schneider

Queste varianti vengono automaticamente fuse.

Tabella 5: Elenco dei nuovi nomi piuttosto simili (30 maggio 2005).

Russ Young

ross young

GARY SHAFER

GARY SHEFFER

Mohammed Dhia

mohammad dhiya

Brian Vilora

brian viloria

Saad al-Hair

saad al-hariri

Pierre Gadonnax

Pierre Gadonnex

abullahi yusuf

Abdullahi Yusuf

… (complessivamente 24 proposizioni) …

Daniel Cicrelli

Daniella cicarelli

Prima di fondere queste varianti, è richiesta la conferma manuale.

32due all’utilizzo di script diversi in greco, russo e arabo, la fusione dei nomi in queste lingue Parzialmente differisce dal processo utilizzato per le lingue scritte con l’alfabeto romano.

normalizzazione del nome ortografia

33name varianti attraverso le lingue sono spesso dovute all’omissione dei diacritici. Ad esempio, un giornale britannico a volte può riferirsi a François Mitterrand come Francois Mitterrand. Un certo numero di ulteriori variazioni regolari che abbiamo osservato sono il canto di doppi consonanti, trascrizioni di F per pH (ad es. Ralph Schumacher), utilizzo alternativo di W o V nei nomi russi (ad esempio Wladimir vs. Vladimir), ortografie alternative del suono “u “Come u o ou, ecc. In lingue come lituano, le trascrizioni sono comuni (ad esempio Buš per Bush). Abbiamo quindi deciso di sviluppare una rappresentazione standard interna, ISR, che ha lo scopo pragmatico di collegare le varianti, senza voler fare rivendicazioni teoriche di qualsiasi tipo.

Prima di calcolare una somiglianza tra coppie di nomi, tutti i nomi sono standardizzati utilizzando un set di circa 30 regole di sostituzione. Esempi sono:

  • Carattere accentato → equivalente non accentato

  • doppio consonante → singolo consonante

  • ou → u

  • wl (inizio del nome) → vl

  • ow, ew (fine del nome) → OV, EV

  • ck → k

  • pH → f

  • ž → j

  • š → sh

34Questo elenco delle regole di sostituzione può anche contenere il massimo Frequenti eccezioni non coperte dalle regole generiche (ad esempio: Джеймс = > ‘JAMES’ per evitare la traslitterazione di base come “gemici”). Esempi di nomi dopo questa standardizzazione sono:

  • jacques chirac → jak shirak

  • wladimir utinow → vladimir utinov

  • vladimir oustinov → vladimir utinov

  • abdalah džburi → abdalah djburi

  • abdallah joubouri → Abdalah Juburi

  • Malik saïdoullaïev → Malik deardulav

  • Malik dettoullajew → Malik dexulajev

Traslitterazione di script non latini

35for Greco, russo e arabo, che non utilizzano lo script latino, utilizziamo regole di traslitterazione e adattamento scritta a mano per rappresentare i nomi con l’alfabeto latino. La traslitterazione consiste in una serie di regole di sostituzione che sostituiscono uno o più caratteri non latini da uno o più caratteri latini. Per greco, ad esempio, si applicano le seguenti sostituzioni:

  • λ → l

  • θ → th

  • μπ → B

36 Dopo la traslitterazione, le regole di normalizzazione descritte nella sezione precedente si applicano la normalizzazione del nome ortografia. I risultati della traslitterazione e della standardizzazione sono spesso fonetici (ad esempio “Bil Klinton”, “Jak Shirak”, ecc.), Ma sono abbastanza simili alla rappresentazione standard per produrre buoni risultati nel processo di corrispondenza fuzzy (vedere la sezione corrispondente Nome varianti). I risultati di esempio per trasformazioni greche, cirilliche e arabe sono:

  • κόφι ανάν (greco) → kofi anan

  • кофи аннан (russo ) → Kofi anan

  • кофи анан (bulgaro) → kofi anan

  • ßæýí úäçä (arabo) → kufi anan

  • कफफी अन्नान (hindi) → kofi anan

37at Il JRC, abbiamo sviluppato regole di traslitterazione per i seguenti sistemi di scrittura: Greco, cirillico (russo, bulgaro e ucraino), arabo (compreso Farsi e Urudu) e Devanagari (hindi e nepali). Scrivere le regole per traslitterare lo script Devarangari ha richiesto circa 2 ore.

Fuzzy Abbinamento delle varianti del nome

38in per identificare potenziali varianti del nome (come quelli nella Tabella 5), svolgiamo un confronto sapiente di tutti i nomi traslitterati e standardizzati. Se la somiglianza della coppia di nomi è superiore a una determinata soglia, i nomi sono candidati varianti.

figura 2

Figura 2

Esempio del processo di corrispondenza tra un nome cirillico (russo) e un latino (francese).

39 P> Il calcolo della somiglianza Combina tre misure di somiglianza. Attualmente prendiamo la media delle tre misure, ma abbiamo intenzione di valutare l’impatto relativo di ciascuno di essi per ottimizzare il loro peso relativo per il calcolo della somiglianza.

40 Le tre misure sono basate sulla somiglianza della lettera Ngram : Calcoliamo il coseno delle liste di frequenza di Letter Ngram per entrambi i nomi, separatamente per i Bigrams e per i trigrammi. La terza misura è il coseno di Bigrams a base di stringhe senza vocali. Non usiamo trascrizioni fonetiche dei nomi in quanto questi sono riportati meno utili rispetto agli approcci simili a Strings (Zobel & DART, 1995). Inoltre, le regole di trascrizione fonetica sono diverse dalla lingua alla lingua (ad esempio Chirac in italiano sarà pronunciato come / kirak /) e trovare le regole di trascrizione per molte lingue sarebbero difficili.

41figure 2 fornisce una panoramica del processo per confrontare un nome francese con la sua controparte russa scritta con lettere cirilliche.

Variazione speciale per affrontare l’arabo

42Stail L’arabo scrive le vocali lunghe e spesso omette quelle brevi. Quando si confrontano i nomi scritti in arabo con nomi scritti con l’alfabeto latino, eliminiamo quindi le vocali da quest’ultimo prima di calcolare la somiglianza. Ad esempio, la rappresentazione standard interna per il nome Condilenezza Rice è il “riso Kondoleza”. Lo stesso nome scritto in arabo è ßæäïæáíòç ñçíó. Il risultato della traslitterazione e della standardizzazione della versione araba del nome è “Konduliza Ray”. Il coseno di Bigrams tra queste due rappresentazioni senza vocali (“Kndlz RC” e “KNDLZ RS”) è piuttosto alto (0.875) in modo che i due nomi scritti con l’arabo e gli script latini siano identificati con successo come varianti di nome.

43figure 3 riassume il processo di corrispondenza per un nome arabo.

figura 3

Esempio di corrispondenza del nome arabo / latino

Valutazione del riconoscimento dei nomi

44our focus non è l’ottimizzazione dell’ottimizzazione del riconoscimento dell’entità nominata per una lingua, ma piuttosto sulla ricerca di un approccio che è facilmente e rapidamente adattato alle lingue nuove. Abbiamo tuttavia lanciato una valutazione sulla performance dello strumento per varie lingue:

  • 5

45in Ogni lingua abbiamo scelto una selezione casuale di circa 100 articoli di giornale. Abbiamo applicato lo strumento di riconoscimento del nostro nome della persona. Gli esperti hanno elencato tutti i nomi delle persone che erano presenti nel testo. Per ogni articolo abbiamo quindi confrontato se ciascuno dei nomi di persona riconosciuti automaticamente è stato selezionato anche da esperto (per ottenere precisione) e se tutti i nomi estratti manualmente sono stati trovati automaticamente (per ottenere il richiamo). Combiniamo questi due valori usando la F-Measure5.

46 Dobbiamo sottolineare che, a differenza della valutazione tradizionale del riconoscimento del nome, il nostro obiettivo era identificare la presenza o la non presenza di un nome nel testo, e che non era la nostra preoccupazione Identifica ogni menzione del nome. Inoltre abbiamo limitato la nostra valutazione al riconoscimento dei nomi delle persone, ignorando organizzazioni e toponimi. I risultati sono riassunti nella Tabella 6.

Tabella 6: Valutazione del riconoscimento del nome della persona in varie lingue.

Lingua

# regole

# testi

# nomi

Media

Precisione

Media

Richiama

Media

F-Misura

Italiano

Francese

g Erman

SPAGNOLO

Italiano

Russo

il numero di regole (cioè. Parole di trigger) dà un’idea della copertura prevista per questa lingua. La terza e quarta colonna mostrano la dimensione del set di test (numero di testi, numero di nomi di persona identificati manualmente).

47 I risultati sono meno buoni che per i sistemi di riconoscimento dell’entità nominati che utilizzano parte del discorso di part-of-discorso I tagger, sono ottimizzati per un determinato linguaggio e non mirano a una multilingualità così alta. La nostra precisione è tuttavia ragionevolmente alta. Nel nostro ambiente, dove cerchiamo di rilevare i nomi nei cluster di notizie anziché in singoli articoli, il richiamo inferiore non è un grosso problema, perché i nomi si trovano solitamente in almeno uno degli articoli in modo che le informazioni personali per il cluster siano spesso completo.

48Il punteggio di richiamo basso potrebbe essere dovuto alla natura del nostro set di test eterogeneo: il set non solo include articoli da molti domini diversi (politica, risultati sportivi, discussioni sui programmi televisivi, ecc.), Ma anche Dai quotidiani internazionali di tutto il mondo (specialmente per i testi della lingua inglese).

49Il sistema deve analizzare articoli come: “Phe Naimahawan, del distretto di Mae Ai di Chiang Mai, è stato selezionato (…) per rappresentare la Tailandia in un evento di nuoto (…). PHE viene aiutato da Wanthanee RungruangSpakul, un docente di legge ‘. Senza tagging part-of-parlato, è difficile indovinare che ‘Phe Naimahawan’ è un nome di persona.Tuttavia, nello stesso testo, siamo stati in grado di indovinare il nome “Wanthanee RungruangSpakul” grazie al “docente di legge” del trigger.

50 La bassa precisione per il tedesco era prevedibile come in tedesco ogni nome è superiore, che spesso si traduce nel sistema che riconosce i nomi comuni come nomi propri. Nell’esempio: “Die Österreichische Eishockey Nationalmannschaft Bekommt Während der Heim-Wm Noch Verstärkung”, “Eishockey Nationalmannschaft” (team nazionale di hockey su ghiaccio) è incorporato da ‘Österreichische’ (austriaco).

51Il relativamente cattivo I punteggi per lo spagnolo sono dovuti a vari fatti. Uno di questi era che non avevamo nomi baschi nei nostri elenchi dei nostri nomi e che molti nomi baschi sono stati trovati nel set di test. Un altro motivo è stato che il nostro sistema frequentemente riconosceva solo la prima parte dei tipici nomi dei composti spagnoli. Infine, diversi nomi organizzativi sono stati classificati dall’algoritmo come nomi di persona.

52 La spiegazione per i risultati russi più bassi è che il nostro database del nostro nome conteneva solo una dozzina di nomi russi in modo che il sistema dovesse indovinare la maggior parte dei nomi, che è più difficile del consultare nomi noti.

Valutazione della traslitterazione

53an Valutazione imparziale dell’algoritmo di corrispondenza variante per i nomi scritti con lo script latino non è possibile perché tutte le varianti frequenti sono già memorizzate nel database, e alcuni di loro erano già stati controllati manualmente o sono stati aggiunti tramite la ricerca Wikipedia (vedere la sezione Archiviazione dei nomi in un database). Saremmo solo in grado di testare il sistema su nuovi nomi, ma per questi non troveremmo varianti nel database. Testare il sistema su varianti precedentemente invisibili non è particolarmente utile neanche. Invece, abbiamo valutato come accuratamente il sistema ha identificato l’equivalente latino dei nomi scritti con lettere cirilliche (russe) e arabe. A tale scopo, due madrelingua hanno preparato una breve lista di nomi selezionati a caso che hanno trovato nelle notizie del giorno. Abbiamo quindi verificato se il sistema ha proposto o meno la versione europea di questo nome come il più simile (con una soglia minima del 50%). Dobbiamo evidenziare che ciascuno dei nomi è stato paragonato alle ortografie di 150.000 altre persone.

54Questo test ci consente di vedere se la traslitterazione, la standardizzazione e lo strumento di corrispondenza fuzzy funziona correttamente. Inoltre, ci consente di convalidare se il nostro database contiene i nomi più importanti.

figura 4

figura 4

interattivo Visualizzazione di luoghi, nomi e termini trovati nei cluster di notizie.

Nome russo Identificazione variante

55out di 53 nomi analizzati, solo uno non ha avuto un equivalente latino nel Database, ma il sistema ha ancora restituito una proposta sbagliata. In altri due casi, è stata identificata la persona sbagliata. I restanti 50 nomi sono stati abbinati con successo alla persona corretta. Sia la precisione che il richiamo sono stati quindi del 94,3%.

56 La persona non presente nel nostro database è stato Robert Bradtke (il Segretario Americano per gli affari europei ed Euroasiatici). Questo nome è stato erroneamente abbinato a Robert Bartko (un ciclista tedesco).

57I Due falsi successi erano Jean-Claude Juncker (Traslitterated come “Jan-Klod Yunker” e abbinato a Carsten Jancker), e Heinz Fischer ( Traslutelato come “Khaynts Fisher” e abbinato a Joschka Fischer).

Identificazione della variante del nome arabo

58all dei 30 nomi selezionati avevano uno script latino-equivalente nel database. Tuttavia, due nomi non sono stati trovati e tre nomi sono stati assegnati alla persona sbagliata. I restanti 25 nomi sono stati abbinati con successo. La precisione è quindi 89,3% e il richiamo è dell’83,3%.

59ongong I buoni esempi, Jean-Pierre Raffarin, traslitterato come “Jan-Biar Rafaran”, era ancora abbinato; E allo stesso modo Arnold Schwarzenegger, traslitterato come ‘arnuld shuarznijr’. Anche i nomi brevi come la paglia di Jack, Traslitterated come “Jak Stru”, sono stati trovati.

60 I due nomi non trovati sono dovuti alla cattiva traslitterazione: John Garang ha la variante araba “Jon þþþ, che è stato traslato come ‘Jon QRNQ ‘e non era simile a qualsiasi nome nel database. Lo stesso è vero per ìæñì ßáæäí, che è stato traslitterato come “Jurj Kloni” e avrebbe dovuto essere identificato come George Clooney.

61 I nomi abbindosi di John McCain sono stati traslitterati come “Jon Mak Kin” (e abbinati a Jean Makoun), Colin Powell Traslitterated come “Kuln Baul”, e Michael Jackson come “Maikl Jakson”. Una soluzione ovvia sarebbe quella di aggiungere manualmente le regole di traslitterazione per i nomi più comuni (George, John, Michael, ecc.).

Denominazione Variante di Variant Identificazione della variante

  • 6 http://www.bbc.co.uk/worldservice/

6222 nomi (Trovato dagli articoli online su BBC World Service6) sono stati selezionati. Tutti loro erano in realtà nel nostro database, 20 sono stati trovati il più simile, ma il sistema non ha trovato due nomi (Îçãäå ç ی, Ali Khamenei e ãíãï Óú ی ï ی, Mohammad Saeedi).

Utilizzo dei nomi per esplorare le raccolte di documenti

63 Gli strumenti per riconoscere e allenarci i nomi fanno parte di un sistema più ampio per analizzare le raccolte di documenti multilingue, raggruppando i documenti correlati, estraendo informazioni Da loro e visualizzare parte di

figura 5

Figura 5

newsexplorer entrata per rafiq hariri

64I risultati. Uno scopo principale del sistema è consentire agli utenti di setacciare rapidamente grandi quantità di documenti. Le seguenti sezioni mostrano le applicazioni in cui vengono rilevati i nomi rilevati automaticamente dalle raccolte multilingue da notizie.

Visualizzazione dei nomi su mappe geografiche

65 per ciascun cluster di articoli relativi alle notizie rilevate dal sistema Europe Media Monitor (EMM), estraemo i nomi dei luoghi e generano una mappa interattiva che mostra la copertura geografica degli articoli (Pouliquen et al., 2004a e 2004b; vedere cf. Figura 4). Inoltre, un numero di parole chiave identificate per il cluster e i nomi rilevati in questo cluster sono elencati sulla mappa. Per ogni cluster di articoli relativi alle notizie, gli utenti possono quindi vedere vari aspetti di informazioni a colpo d’occhio. In una versione personalizzata dello strumento, gli utenti possono anche vedere sulla stessa mappa che i termini di ricerca selezionati manualmente sono stati trovati. La mappa viene generata utilizzando grafica vettoriale scalabile (SVG) ed è interattiva in modo che gli utenti possano ingrandire una specifica area geografica. La caratteristica interattiva consente loro inoltre di vedere il contesto in cui sono stati menzionati nomi, persone e termini, e i collegamenti ipertestuali consentono di saltare a specifici passaggi di testo. Questo strumento di visualizzazione consente anche agli utenti di ottenere una panoramica dei contenuti delle raccolte di testo scritte nelle lingue che potrebbero non capire.

Browser Nome

66in Il sistema Explorer News Explorer del JRC, le informazioni raccolte durante l’analisi giornaliera multilingue sono memorizzate in un database relazionale in modo che le informazioni sugli eventi passati, persone e luoghi possano essere navigato. Per ogni cluster, in attualmente in otto lingue, il sistema tiene traccia che le persone sono menzionate insieme a quali altre persone, paesi e parole chiave. Poiché il database viene aggiornato ogni giorno, una rete di collegamenti si accumula nel tempo. Ad esempio, il database può essere interrogato per tutti i cluster di notizie che menzionano una certa persona, e può dire quale altre persone sono state menzionate negli stessi cluster. Per ogni cluster di notizie, un collegamento all’URL originale dell’articolo più tipico (il Medoide, quello più vicino al cluster Centroid) consente agli utenti di leggere sulla storia.

un’interfaccia Web dà accesso alle informazioni memorizzate su ogni persona. Questa informazione include:

  • Informazioni sulla persona stessa: nome, varianti del nome, fotografia (quando disponibili);

  • cluster questo La persona è stata menzionata in;

  • le parole del trigger (titoli) più frequentemente identificate per i cluster associati a questa persona;

  • un elenco di persone associate, cioè quelle persone che sono spesso menzionate negli stessi gruppi di notizie.

67Addizionalmente, un’elenco VIP giornaliero visualizza le persone più spesso menzionate nelle notizie di Quel giorno.

68S I titoli sono memorizzati nel database, l’utente può anche interrogare tutte le persone che hanno il titolo “Presidente georgiano” e simili. Per i dettagli sulle funzionalità di navigazione, vedere Steinberger et al. (2005).

69 La maggior parte delle informazioni viene esportato in un sito Web pubblico (http://press.jrc.it/NewsExplorer /), come mostrato sulla figura 5.

Identificazione dei collegamenti tra persone

70Quando che visualizzano le persone associate classificate dalla frequenza, le persone che sono nelle notizie per tutto il tempo (ad es. George Bush) appariranno in quasi tutte le liste. Abbiamo quindi introdotto un fattore di ponderazione che consente al peso del peso altamente frequenti e concentrati su quei nomi delle persone che sono specificamente associati a una data altre persone. La formula di ponderazione utilizza tre fattori: il numero di cluster a ciascuna persona viene visualizzata, il numero di cluster comuni si presentano due persone e il numero di “ulteriori associati” ciascuna delle persone ha. La formula calcola un peso specifico di associazione tra due entità nel nostro database:

equazione n ° 1. Peso della relazione tra due entità

Equazione n ° 1. Peso della relazione tra due entità

71 Dove:

Ei: Entity

COE1, E2: Cluster Co-occorrenza tra E1 ed E2

ICFE1, E2: Frequenza di cluster inversa di E1 ed E2

IASSE1, E2: Associazione inversa Frequenza di E1 ed E2

Equazione n ° 2. Peso co-occorrenza del cluster

Equazione n ° 2. Cluster Co-occorrenza Peso

Dove:

ce1, E2: Numero di cluster dove E1 ed E2 si verificano insieme

Equanitionn ° 3. Frequenza del cluster inversa

equazione ° 3.Frequenza del cluster inversa

Dove:

CE1, E2: Numero di cluster in cui E1 ed E2 appaiono insieme

CEI: Numero totale di cluster dove EI appare; I = 1,2

Equazione n ° 4. Frequenza di associazione inversa

Dove:

AEI: numero totale di entità che si verificano con EI; I = 1,2

72 L’elenco ponderato delle persone associate mostra nomi piuttosto diversi dall’elenco di frequenza puro. Per il Segretario Generale del Consiglio dell’Unione europea Javier Solana, ad esempio, i nomi più frequentemente co-occorrenti sono i noti politici George Bush, Jacques Chirac, Yasser Arafat e Kofi Annan. Nell’elenco ponderato, tuttavia, le due persone di alto livello sono Christina Gallach (portavoce di Solana) e Pierre de Boissieu (Assistente di Solana). Queste due persone sono meno conosciute perché non vengono menzionate molto al di fuori del contesto di Javier Solana, ma i loro nomi sono strettamente legati a Solana poiché sono tipicamente menzionati nelle notizie quando viene menzionato Solana.

Visualizzazione delle mappe di relazione

figura 6

Figura 6

Mappa di relazione che mostra Rafik Hariri e il 20 persone più correlate a Lui (n = 20)

  • 7 http://www.graphviz.org/

73ONCE Siamo in grado di pesare le relazioni tra le persone, possiamo riassumere i collegamenti tra le persone che utilizzano una “mappa di relazione” (vedere le mappe delle relazioni di sezione). Utilizziamo il software di visualizzazione del grafico GRAPPVIZ open source del grafico7 e più specificamente l’utilità neato in base all’algoritmo di Kamada & KAWAI (1989), che utilizza un grafico 2-D per visualizzare il più vicino nodi insieme. Per una determinata persona A, diamo come input un grafico non orientato in cui ogni nodo è una persona e ogni bordo è una relazione di co-occorrenza (usando il peso descritto nella sezione precedente che identifica i collegamenti tra le persone). Un grafico richiede un parametro una persona e calcola il grafico non rilevato. Un filtro consente quindi di visualizzare solo i primi n relations (quelle n relazioni con il peso più alto). Nella figura 5, l’utente può ottenere una panoramica delle persone che si verificano insieme a Rafik Hariri. L’utente può quindi selezionare un’altra persona e visualizzare il proprio grafico corrispondente. Questo grafico è utile per dare una rapida panoramica dei vari gruppi di persone correlate a questa persona a.

conclusione e lavoro futuro

74Many degli strumenti menzionati in questo documento sono già in uso quotidiano, ma altri devono ancora maturare e stabilizzarsi. La corrispondenza cross-linguale delle varianti del nome produce già risultati utili per un sistema interattivo, ma la fusione delle varianti dei nomi non può ancora essere completamente automatizzata perché produce ancora errori. Vorremmo esplorare il modo in cui il contesto del cluster di due nomi può essere utilizzato per migliorare la qualità dello strumento di fusione del nome. Confronto delle serie temporali come in Shinyama & SEKINE (2004) potrebbe migliorare la precisione.

75 Penilo anche a dedicare più tempo per migliorare il riconoscimento del nome stesso. Alcuni modelli potrebbero riconoscere i nomi delle organizzazioni. Vorremmo esplorare i sistemi per modelli automaticamente (o semi-automaticamente) ad estendere i modelli in nuove lingue.

76Currently utilizziamo il contenuto delle voci di Wikipedia solo per ottenere collegamenti cross-lingual e la foto della fotografia della persona . La ricerca interessante sarebbe per i miei testi di Wikipedia automaticamente per ulteriori informazioni. La relazione tra le persone, ad esempio, potrebbe essere confermata se una determinata persona è menzionata nella pagina di qualcun altro.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *