Lexicologie computațională - Computational lexicology

Lexicologia computațională este o ramură a lingvisticii computaționale , care este preocupată de utilizarea calculatoarelor în studiul lexicului . A fost descris mai îngust de unii savanți (Amsler, 1980) drept utilizarea calculatoarelor în studiul dicționarelor care pot fi citite de mașini . Se distinge de lexicografia computațională , care ar fi mai corect folosirea calculatoarelor în construcția dicționarelor, deși unii cercetători au folosit lexicografia computistică ca sinonim .

Istorie

Lexicologia computațională a apărut ca o disciplină separată în cadrul lingvisticii computaționale cu apariția unor dicționare care pot fi citite de mașini, începând cu crearea casetelor care pot fi citite de mașini din Dicționarul colegial Merriam-Webster și al Dicționarului de buzunar Merriam-Webster din anii 1960 de John. Olney și colab. la Corporation Development Corporation . Astăzi, lexicologia computațională este cea mai cunoscută prin crearea și aplicațiile WordNet . Pe măsură ce prelucrarea computațională a cercetătorilor a crescut de-a lungul timpului, utilizarea lexicologiei computaționale a fost aplicată omniprezent în analiza textului. În 1987, printre alții Byrd, Calzolari, Chodorow au dezvoltat instrumente de calcul pentru analiza textului. În special, modelul a fost conceput pentru coordonarea asociațiilor care implică simțurile cuvintelor polisemice .

Studiul lexicului

Lexicologia computațională a contribuit la înțelegerea conținutului și a limitărilor dicționarelor tipărite în scopuri computaționale (adică a clarificat faptul că lucrarea anterioară de lexicografie nu a fost suficientă pentru nevoile lingvisticii computaționale). Prin activitatea lexicologilor de calcul au fost studiate aproape fiecare porțiune a unei intrări în dicționarul tipărit, variind de la:

  1. ce constituie un cuvânt cheie - folosit pentru a genera liste de corecție ortografică;
  2. ce variante și inflexiuni formele cuvinte cheie - folosite pentru a înțelege empiric morfologia;
  3. modul în care cuvintele de bază sunt delimitate în silabe;
  4. modul în care se pronunță cuvântul de cuvânt - utilizat în sistemele de generare a vorbirii;
  5. părțile de vorbire preiau cuvântul - folosit pentru etichetele POS ;
  6. orice subiect special sau coduri de utilizare alocate cuvântului principal - utilizate pentru a identifica subiectul documentului text;
  7. definițiile cuvântului cheie și sintaxa lor - folosite ca ajutor pentru dezambiguizarea cuvântului în context;
  8. etimologia cuvântului de cuvânt și utilizarea acestuia pentru a caracteriza vocabularul după limbile de origine - folosit pentru a caracteriza vocabularul textului în ceea ce privește limbile sale de origine;
  9. propozițiile de exemplu;
  10. run-on-urile (cuvinte suplimentare și expresii cu mai multe cuvinte care sunt formate din cuvântul de cuvânt); și
  11. cuvinte înrudite precum sinonime și antonime .

Mulți lingviști computaționali au fost dezamăgiți de dicționarele tipărite ca o resursă pentru lingvistică computațională, deoarece nu aveau informații sintactice și semantice suficiente pentru programele de calculator. Lucrările asupra lexicologiei computaționale au dus rapid la eforturi în două direcții suplimentare.

Succesorii Lexicologiei computaționale

În primul rând, activitățile de colaborare între lingviștii de calcul și lexicografi au dus la înțelegerea rolului pe care corpul l-a jucat în crearea dicționarelor. Majoritatea lexicologilor de calcul au continuat să construiască corpuri mari pentru a aduna datele de bază pe care lexicografii le-au folosit pentru a crea dicționare. ACL / DCI (Inițiativa de culegere a datelor) și LDC ( Linguistic Data Consortium ) au parcurs această cale. Apariția limbajelor de marcare a dus la crearea de corpuri marcate care ar putea fi analizate mai ușor pentru a crea sisteme lingvistice de calcul. Au fost create corporale etichetate parțial de vorbire și corporale marcate semantic pentru a testa și dezvolta tag-urile POS și tehnologia de dezambiguizare semantică a cuvântului.

A doua direcție a fost spre crearea bazelor de cunoștințe lexicale (LKB). O bază de cunoștințe lexicale a fost considerată a fi ceea ce ar trebui să fie un dicționar în scopuri lingvistice de calcul, în special în scopuri semantice lexicale de calcul. Avea aceleași informații ca într-un dicționar tipărit, dar complet explicat cu privire la semnificațiile cuvintelor și la legăturile corespunzătoare dintre simțuri. Mulți au început să creeze resursele pe care și-au dorit-o dicționarele, dacă ar fi fost create pentru a fi utilizate în analize computationale. WordNet poate fi considerat a fi o astfel de dezvoltare, la fel ca și eforturile mai noi de a descrie informații sintactice și semantice, cum ar fi lucrarea FrameNet din Fillmore. În afara lingvisticii computaționale, munca Ontologie a inteligenței artificiale poate fi văzută ca un efort evolutiv de a construi o bază de cunoștințe lexicale pentru aplicațiile AI.

Standardizare

Optimizarea producției, întreținerii și extinderii de lexici de calcul este unul dintre aspectele cruciale care afectează PNL . Problema principală este interoperabilitatea : diverse lexicale sunt frecvent incompatibile. Situația cea mai frecventă este: cum să fuzionezi două lexicale sau fragmente de lexiconi? O problemă secundară este că, de obicei, lexicul este adaptat în mod specific la un program specific NLP și are dificultăți în utilizarea altor programe sau aplicații NLP.

În acest sens, diferitele modele de date ale lexicalelor computaționale sunt studiate de ISO / TC37 din 2003 în cadrul cadrului de marcare lexicală a proiectului care duce la un standard ISO în 2008.

Referințe

Amsler, Robert A. 1980. Ph.D. Disertație, „Structura dicționarului de buzunar Merriam-Webster”. Universitatea Texas din Austin.

linkuri externe