Cadrul Lexical Markup - Lexical Markup Framework

Managementul resurselor Limba - cadru de marcare lexicale ( LMF ; ISO 24613: 2008 ), este ISO Organizația Internațională de Standardizare ISO / TC37 standard pentru prelucrarea limbajului natural (NLP) și de dicționar mașină care poate fi citit (MRD) lexicoane . Domeniul de aplicare este standardizarea principiilor și metodelor legate de resursele lingvistice în contextele comunicării multilingve.

Obiective

Obiectivele LMF sunt de a oferi un model comun pentru crearea și utilizarea resurselor lexicale , de a gestiona schimbul de date între aceste resurse și de a permite fuzionarea unui număr mare de resurse electronice individuale pentru a forma resurse electronice globale extinse.

Tipurile de instanțieri individuale ale LMF pot include resurse lexicale monolingve, bilingve sau multilingve. Aceleași specificații trebuie utilizate atât pentru lexiconele mici, cât și pentru cele mari, atât pentru lexiconele simple, cât și pentru cele complexe, atât pentru reprezentările lexicale scrise, cât și pentru cele vorbite. Descrierile variază de la morfologie , sintaxă , semantică de calcul până la traducere asistată de calculator . Limbile acoperite nu sunt limitate la limbile europene, dar acoperă toate limbile naturale . Gama de aplicații NLP vizate nu este restricționată. LMF este capabil să reprezinte majoritatea lexiconelor, inclusiv lexiconele WordNet , EDR și PAROLE.

Istorie

În trecut, standardizarea lexicului a fost studiată și dezvoltată de o serie de proiecte precum GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE și ISLE. Apoi, delegațiile naționale ISO / TC37 au decis să abordeze standarde dedicate reprezentării NLP și a lexicului. Activitatea privind LMF a început în vara anului 2003 printr-o nouă propunere de articol de lucru emisă de delegația SUA. În toamna anului 2003, delegația franceză a emis o propunere tehnică pentru un model de date dedicat lexiconelor NLP. La începutul anului 2004, comitetul ISO / TC37 a decis să formeze un proiect ISO comun cu Nicoletta Calzolari ( CNR -ILC Italia) în calitate de coordonator și Gil Francopoulo (Tagmatica Franța) și Monte George ( ANSI SUA) ca editori. Primul pas în dezvoltarea LMF a fost de a proiecta un cadru general bazat pe caracteristicile generale ale lexiconelor existente și de a dezvolta o terminologie consecventă pentru a descrie componentele acestor lexicone. Următorul pas a fost proiectarea efectivă a unui model cuprinzător care să reprezinte cel mai bine toate lexicoanele în detaliu. Un grup mare de 60 de experți a contribuit la o gamă largă de cerințe pentru LMF, care acoperea multe tipuri de lexicone NLP. Editorii LMF au lucrat îndeaproape cu grupul de experți pentru a identifica cele mai bune soluții și a ajunge la un consens cu privire la proiectarea LMF. O atenție specială a fost acordată morfologiei pentru a oferi mecanisme puternice de gestionare a problemelor în mai multe limbi care erau cunoscute ca fiind dificil de manevrat. 13 versiuni au fost scrise, expediate (către experții nominalizați la nivel național), comentate și discutate în cadrul diferitelor întâlniri tehnice ISO. După cinci ani de muncă, inclusiv numeroase întâlniri față în față și schimburi de e-mail, editorii au ajuns la un model UML coerent. În concluzie, LMF ar trebui considerată o sinteză a stadiului tehnicii în câmpul de lexicon NLP.

Starea curentă

Numărul ISO este 24613. Specificația LMF a fost publicată oficial ca standard internațional la 17 noiembrie 2008.

Fiind unul dintre membrii familiei de standarde ISO / TC37

Standardele ISO / TC37 sunt elaborate în prezent ca specificații de nivel înalt și se ocupă de segmentarea cuvintelor (ISO 24614), adnotări (ISO 24611 aka MAF, ISO 24612 aka LAF, ISO 24615 aka SynAF și ISO 24617-1 aka SemAF / Time), structuri de caracteristici (ISO 24610), containere multimedia (ISO 24616 aka MLIF) și lexicoane (ISO 24613). Aceste standarde se bazează pe specificații de nivel scăzut dedicate constantelor, și anume categorii de date (revizuirea ISO 12620), coduri de limbă ( ISO 639 ), coduri de scripturi ( ISO 15924 ), coduri de țară ( ISO 3166 ) și Unicode ( ISO 10646 ).

Cele două niveluri de organizare formează o familie coerentă de standarde cu următoarele reguli comune și simple:

specificația la nivel înalt oferă elemente structurale care sunt împodobite de constante standardizate;
specificațiile de nivel scăzut oferă constante standardizate ca metadate.

Standarde cheie

Constantele lingvistice precum / feminin / sau / tranzitiv / nu sunt definite în cadrul LMF, dar sunt înregistrate în Registrul categoriilor de date (DCR) care este menținut ca resursă globală de ISO / TC37 în conformitate cu ISO / IEC 11179-3: 2003. Și aceste constante sunt folosite pentru a împodobi elementele structurale de nivel înalt.

Specificația LMF este conformă cu principiile de modelare ale Unified Modeling Language (UML), astfel cum sunt definite de Object Management Group (OMG). Structura este specificată prin intermediul diagramelor de clasă UML . Exemplele sunt prezentate prin intermediul diagramelor de instanță (sau obiect) UML.

Un DTD XML este dat într-o anexă a documentului LMF.

Structura modelului

LMF este compus din următoarele componente:

Pachetul principal care este scheletul structural care descrie ierarhia de bază a informațiilor într-o intrare lexicală.
Extensii ale pachetului de bază care sunt exprimate într-un cadru care descrie reutilizarea componentelor de bază împreună cu componentele suplimentare necesare pentru o resursă lexicală specifică.

Extensiile sunt dedicate în mod specific la morfologie , MRD , NLP sintaxa , NLP semantica , NLP notatii multilingve , NLP modele morfologice , expresie multiword modele și expresie constrângere modele .

Exemplu

În exemplul următor, intrarea lexical este asociat cu un Ierna cleric și două forme încovoiat cleric și clericii . Codarea limbajului este setată pentru întreaga resursă lexicală. Valoarea limbii este setată pentru întregul lexicon așa cum se arată în următoarea diagramă de instanță UML .

Elementele Resursă lexicală , Informații globale , Lexicon , Introducere lexicală , Lemă și Formă cuvânt definesc structura lexicului. Acestea sunt specificate în documentul LMF. Dimpotrivă, languageCoding , language , partOfSpeech , commonNoun , wroteForm , grammaticalNumber , singular , plural sunt categorii de date preluate din Registrul de categorii de date. Aceste semne împodobesc structura. Valorile ISO 639-3 , cleric , clericii sunt șiruri de caractere de câmpie. Valoarea eng este preluată din lista de limbi definite de ISO 639-3 .

Cu unele informații suplimentare, cum ar fi dtdVersion și feat , aceleași date pot fi exprimate prin următorul fragment XML :

<LexicalResource dtdVersion="15">
    <GlobalInformation>
        <feat att="languageCoding" val="ISO 639-3"/>
    </GlobalInformation>
    <Lexicon>
        <feat att="language" val="eng"/>
        <LexicalEntry>
            <feat att="partOfSpeech" val="commonNoun"/>
            <Lemma>
                <feat att="writtenForm" val="clergyman"/>
            </Lemma>
            <WordForm>
                 <feat att="writtenForm" val="clergyman"/>
                 <feat att="grammaticalNumber" val="singular"/>
            </WordForm>
            <WordForm>
                <feat att="writtenForm" val="clergymen"/>
                <feat att="grammaticalNumber" val="plural"/>
            </WordForm>
        </LexicalEntry>
    </Lexicon>
</LexicalResource>

Acest exemplu este destul de simplu, în timp ce LMF poate reprezenta descrieri lingvistice mult mai complexe, etichetarea XML este în mod corespunzător complexă.

Publicații selectate despre LMF

Prima publicație despre specificația LMF, astfel cum a fost ratificată de ISO (această lucrare a devenit (în 2015) cea de-a 9-a lucrare cea mai citată în cadrul conferințelor de resurse lingvistice și evaluare din lucrările LREC):

Resurse lingvistice și evaluare LREC-2006 / Genova: Gil Francopoulo, Monte George, Nicoletta Calzolari, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria: Lexical Markup Framework (LMF)

Despre reprezentarea semantică:

Gesellschaft für linguistische Datenverarbeitung GLDV-2007 / Tübingen: Gil Francopoulo, Nuria Bel, Monte George Nicoletta Calzolari, Monica Monachini, Mandy Pet, Claudia Soria: Lexical Markup Framework ISO standard for semantic information in NLP lexicons

Despre limbile africane:

Traitement Automatique des langues naturelles, Marseille, 2014: Mouhamadou Khoule, Mouhamad Ndiankho Thiam, El Hadj Mamadou Nguer: Toward the establishment of a LMF-based Wolof language lexicon (Vers la mise en place d'un lexique basé sur LMF pour la langue wolof ) [in franceza]

Despre limbile asiatice:

Lexicografie, Jurnalul ASIALEX, Springer 2014: Cadrul de marcaj lexical: Gil Francopoulo, Chu-Ren Huang: Un standard ISO pentru lexicone electronice și implicațiile sale pentru limbile asiatice DOI 10.1007 / s40607-014-0006-z

Despre limbile europene:

COLING 2010: Verena Henrich, Erhard Hinrichs: Standardizarea Wordnets în standardul ISO LMF: Wordnet-LMF pentru GermaNet
EACL 2012: Judith Eckle-Kohler, Iryna Gurevych: Subcat-LMF: Realizarea unui format standardizat pentru interoperabilitatea cadrului de subcategorizare
EACL 2012: Iryna Gurevych, Judith Eckle-Kohler, Silvana Hartmann, Michael Matuschek, Christian M Meyer, Christian Wirth: UBY - A Large-Scale Unified Lexical-Semantic Resource Based on LMF.

Despre limbile semitice:

Journal of Natural Language Engineering , Cambridge University Press (care va apărea în primăvara anului 2015): Aida Khemakhem, Bilel Gargouri, Abdelmajid Ben Hamadou, Gil Francopoulo: ISO Standard Modeling of a large Arabic Dictionary.
Lucrările celei de-a șaptea conferințe globale Wordnet 2014: Nadia BM Karmani, Hsan Soussou, Adel M Alimi: Construirea unui Wordnet standardizat în ISO LMF pentru limbajul aeb.
Lucrările atelierului: HLT și NLP în lumea arabă, LREC 2008: Noureddine Loukil, Kais Haddar, Abdelmajid Ben Hamadou: Către un lexic sintactic al verbelor arabe.
Traitement Automatique des Langues Naturelles, Toulouse (în franceză) 2007: Khemakhem A, Gargouri B, Abdelwahed A, Francopoulo G: Modélisation des paradigmes de flexion des verbes arabes selon norme LMF-ISO 24613.

Carte dedicată

Există o carte publicată în 2013: LMF Lexical Markup Framework, care este dedicată în întregime LMF. Primul capitol tratează istoria modelelor de lexicon, al doilea capitol este o prezentare formală a modelului de date, iar al treilea capitol tratează relația cu categoriile de date ale ISO-DCR. Celelalte 14 capitole tratează un lexicon sau un sistem, fie în domeniul civil, fie în domeniul militar, fie în laboratoarele de cercetare științifică, fie pentru aplicații industriale. Acestea sunt Wordnet-LMF, Prolmf, DUELME, UBY-LMF , LG-LMF, RELISH, GlobalAtlas (sau Global Atlas) și Wordscape.

Comunicări științifice conexe

Resurse lingvistice și evaluare LREC-2006 / Genova: relevanța standardelor pentru infrastructurile de cercetare

Vezi si

Lexicologie computațională
Semantica lexicala
Morfologie (lingvistică) pentru explicații referitoare la paradigme și morfosintaxie
Traducere automată pentru o prezentare a diferitelor tipuri de notații multilingve (a se vedea secțiunea Abordări )
Model morfologic pentru diferența dintre o paradigmă și un model de paradigmă
WordNet pentru o prezentare a celui mai renumit lexicon semantic pentru limba engleză
Universal Terminology eXchange (UTX) pentru un format alternativ orientat către utilizator pentru dicționarele care pot fi citite automat
Limbaj de rețea universal
UBY-LMF pentru o aplicație LMF
OntoLex-Lemon pentru un model bazat pe LMF pentru publicarea dicționarelor sub formă de grafice de cunoștințe , în RDF și / sau ca date deschise conectate lingvistic

Languages

In other projects