Exploatarea textului biomedical - Biomedical text mining

Exploatarea biomedicală a textului (inclusiv prelucrarea biomedicală a limbajului natural sau BioNLP ) se referă la metodele și studiul modului în care extragerea textului poate fi aplicată textelor și literaturii din domeniile de biologie biomedicală și moleculară . Ca domeniu de cercetare, exploatarea biomedicală a textului încorporează idei din prelucrarea limbajului natural , bioinformatică , informatică medicală și lingvistică computațională . Strategiile dezvoltate prin studii în acest domeniu sunt frecvent aplicate literaturii de biologie biomedicală și moleculară disponibile prin servicii precum PubMed .

Considerații

Aplicarea abordărilor de extragere a textului la textul biomedical necesită considerații specifice comune domeniului.

Disponibilitatea datelor text adnotate

Această figură prezintă mai multe proprietăți ale unui corp de literatură biomedicală pregătit de Westergaard și colab. Corpusul include 15 milioane de articole cu text integral în limba engleză. (a) Numărul de publicații pe an din 1823–2016. (b) Dezvoltarea temporală în distribuția a șase categorii topice diferite din 1823–2016. (c) Dezvoltarea numărului de pagini pe articol din 1823–2016.

Large adnotată corpusuri utilizate în dezvoltarea și formarea de uz general metode de exploatare a textului ( de exemplu, seturi de dialog film, opiniile sau Wikipedia articol de text) nu sunt specifice pentru limba biomedicale. Deși pot oferi dovezi ale proprietăților generale ale textului, cum ar fi părțile de vorbire, ele conțin rareori concepte de interes pentru biologi sau clinici. Dezvoltarea de noi metode pentru identificarea caracteristicilor specifice documentelor biomedicale necesită asamblarea corpurilor specializate. Resursele concepute pentru a ajuta la construirea de noi metode de extragere a textului biomedical au fost dezvoltate prin provocările de informatică pentru integrarea biologiei și a patului (i2b2) și a cercetătorilor în informatică biomedicală. Cercetătorii în domeniul mineritului de text combină frecvent aceste corpusuri cu vocabularele și ontologiile controlate disponibile prin intermediul sistemului național de limbaj medical (UMLS) al Bibliotecii Naționale a Medicinii și a rubricilor subiectului medical (MeSH) .

Metodele bazate pe învățarea automată necesită adesea seturi de date foarte mari ca date de instruire pentru a construi modele utile. Adnotarea manuală a corpurilor mari de text nu este posibilă în mod realist. Datele de instruire pot fi, prin urmare, produse de supraveghere slabă sau metode pur statistice.

Variația structurii datelor

Ca și alte documente text, documentele biomedicale conțin date nestructurate . Publicațiile de cercetare urmează diferite formate, conțin diferite tipuri de informații și sunt intercalate cu cifre, tabele și alt conținut non-text. Atât textul nestructurat, cât și elementele documentului semi-structurat, cum ar fi tabelele, pot conține informații importante care ar trebui extrase din text. Documentele clinice pot varia în structură și limbă între departamente și locații. Alte tipuri de text biomedical, cum ar fi etichetele medicamentelor, pot urma orientări structurale generale, dar nu au detalii suplimentare.

Incertitudine

Literatura biomedicală conține afirmații despre observații care ar putea să nu fie afirmații de fapt. Acest text poate exprima incertitudine sau scepticism cu privire la afirmații. Fără adaptări specifice, abordările miniere de text concepute pentru a identifica revendicările din text pot caracteriza greșit aceste afirmații „acoperite” drept fapte.

Susținerea nevoilor clinice

Aplicațiile de extragere a textului biomedical dezvoltate pentru uz clinic ar trebui să reflecte în mod ideal nevoile și cerințele clinicienilor. Aceasta este o preocupare în mediile în care sprijinul deciziilor clinice este de așteptat să fie informativ și precis.

Interoperabilitate cu sistemele clinice

Noile sisteme de extragere a textului trebuie să funcționeze cu standardele existente, dosarele medicale electronice și bazele de date. Au fost dezvoltate metode de interfață cu sistemele clinice, cum ar fi LOINC, dar necesită un efort organizatoric amplu pentru implementare și menținere.

Confidențialitatea pacientului

Sistemele de extragere a textelor care funcționează cu date medicale private trebuie să-i respecte securitatea și să asigure anonimitatea, acolo unde este cazul.

Procese

Subsarcinile specifice sunt de o preocupare deosebită atunci când se prelucrează textul biomedical.

Recunoașterea entității denumite

Dezvoltările în mineritul textului biomedical au încorporat identificarea entităților biologice cu recunoaștere a entității denumite sau NER. Numele și identificatorii pentru biomolecule, cum ar fi proteinele și genele , compușii chimici și medicamente, precum și numele bolilor au fost folosiți ca entități. Majoritatea metodelor de recunoaștere a entităților sunt susținute de trăsături lingvistice predefinite sau vocabulare, deși metodele care încorporează învățarea profundă și încorporarea cuvintelor au avut succes și la NER biomedical.

Clasificarea și gruparea documentelor

Documentele biomedicale pot fi clasificate sau grupate pe baza conținutului și subiectelor lor. În clasificare, categoriile de documente sunt specificate manual, în timp ce în grupare, documentele formează grupuri distincte, dependente de algoritm. Aceste două sarcini sunt reprezentative pentru metodele supravegheate și respectiv nesupravegheate , totuși scopul ambelor este de a produce subseturi de documente pe baza trăsăturilor lor distinctive. Metodele pentru gruparea documentelor biomedicale s-au bazat pe gruparea k- mijloace .

Descoperirea relației

Documentele biomedicale descriu conexiunile dintre concepte, indiferent dacă acestea sunt interacțiuni între biomolecule, evenimente care au loc ulterior în timp (adică relații temporale ) sau relații cauzale . Metodele de extragere a textului pot efectua descoperirea relației pentru a identifica aceste conexiuni, adesea în acord cu recunoașterea entității denumite.

Detectarea tacului de gard viu

Provocarea identificării declarațiilor incerte sau „acoperite” a fost abordată prin detectarea indicilor de acoperire în literatura biomedicală.

Detectarea revendicării

Mai mulți cercetători au dezvoltat metode pentru a identifica afirmațiile științifice specifice din literatură. În practică, acest proces implică atât izolarea frazelor, cât și a propozițiilor care denotă argumentele esențiale formulate de autorii unui document (un proces cunoscut sub numele de minerit de argumente , care utilizează instrumente utilizate în domenii precum știința politică) și compararea afirmațiilor pentru a găsi potențiale contradicții între ele.

Extragerea informațiilor

Extragerea informațiilor, sau IE , este procesul de identificare automată a informațiilor structurate dintr-un text nestructurat sau parțial structurat. Procesele IE pot implica mai multe sau toate activitățile de mai sus, inclusiv recunoașterea entității denumite, descoperirea relației și clasificarea documentelor, cu scopul general de a traduce textul într-o formă mai structurată, cum ar fi conținutul unui șablon sau bază de cunoștințe . În domeniul biomedical, IE este utilizat pentru a genera legături între conceptele descrise în text, cum ar fi gena A inhibă gena B, iar gena C este implicată în boala G. Bazele de cunoștințe biomedicale care conțin acest tip de informații sunt în general produse de curățare manuală extinsă, deci înlocuirea eforturilor manuale cu metode automatizate rămâne un domeniu convingător de cercetare.

Recuperarea informațiilor și răspunsul la întrebări

Exploatarea biomedicală a textului acceptă aplicații pentru identificarea documentelor și conceptelor care corespund interogărilor de căutare. Motoarele de căutare, cum ar fi căutarea PubMed, permit utilizatorilor să interogheze baze de date din literatură cu cuvinte sau fraze prezente în conținutul documentului, metadate sau indici precum MeSH . Abordări similare pot fi utilizate pentru recuperarea literaturii medicale . Pentru rezultate mai fine, unele aplicații permit utilizatorilor să caute cu interogări de limbaj natural și să identifice relații biomedicale specifice.

La 16 martie 2020, Biblioteca Națională de Medicină și alții au lansat setul de date de cercetare deschisă COVID-19 (CORD-19) pentru a permite extragerea textului literaturii actuale despre virusul nou. Setul de date este găzduit de proiectul Semantic Scholar al Allen Institute for AI . Alți participanți includ Google , Microsoft Research , Centrul pentru securitate și tehnologii emergente și inițiativa Chan Zuckerberg .

Resurse

Corpuri

Următorul tabel listează o selecție de corpuri de text biomedical și conținutul acestora. Aceste elemente includ corpuri adnotate, surse de literatură de cercetare biomedicală și resurse utilizate frecvent ca referințe de vocabular și / sau ontologie, cum ar fi MeSH . Articolele marcate „Da” sub „Disponibil gratuit” pot fi descărcate dintr-o locație accesibilă publicului.

Corpuri de text biomedical
Nume corpus Autori sau grup Cuprins Disponibil gratuit Citare
2006 i2b2 Provocarea deidentificării și fumatului i2b2 889 rezumate de descărcare medicală dezidentificate adnotate pentru identificarea pacientului și caracteristicile stării de fumat. Da, cu înregistrare
Provocarea obezității i2b2 2008 i2b2 1.237 rezumate cu descărcare medicale identificat de adnotate pentru prezența sau absența comorbidităților de obezitate . Da, cu înregistrare
Provocarea medicamentelor i2b2 2009 i2b2 1.243 rezumate de descărcare medicală dezidentificate adnotate pentru numele și detaliile medicamentelor, inclusiv dozarea, modul , frecvența, durata, motivul și prezența într-o listă sau o structură narativă. Da, cu înregistrare
Provocarea relațiilor i2b2 2010 i2b2 Rezumate ale descărcărilor medicale adnotate pentru probleme medicale, teste, tratamente și relațiile dintre aceste concepte. Doar un subset al acestor înregistrări de date este disponibil pentru utilizarea cercetării din cauza limitărilor IRB. Da, cu înregistrare
2011 i2b2 Coreference Challenge i2b2 978 de-identificate rezumate de descărcare de gestiune medicală, note de progres și alte rapoarte clinice adnotate cu concepte și referințe de bază . Include corpusul ODIE. Da, cu înregistrare
2012 i2b2 Provocarea relațiilor temporale i2b2 310 rezumate de descărcare medicală dezidentificate adnotate pentru evenimente și relații temporale . Da, cu înregistrare
2014 i2b2 De-Identification Challenge i2b2 1.304 dosare medicale longitudinale dezidentificate adnotate pentru informații de sănătate protejate (PHI) . Da, cu înregistrare
2014 i2b2 Provocarea factorilor de risc pentru bolile cardiace i2b2 1.304 dosare medicale longitudinale dezidentificate adnotate pentru factorii de risc pentru boala arterei cardiace . Da, cu înregistrare
ȚINUT Bunescu et al. 200 de rezumate adnotate pentru interacțiuni proteină-proteină , precum și rezumate negative negative care nu conțin interacțiuni proteină-proteină. da
BioC-BioGRID BioCreAtIvE 120 de articole de cercetare text complet adnotate pentru interacțiuni proteină-proteină . da
BioCreAtIvE 1 BioCreAtIvE 15.000 de propoziții (10.000 de antrenamente și 5.000 de teste) adnotate pentru nume de proteine ​​și gene. 1.000 de articole de cercetare biomedicală cu text integral adnotate cu nume de proteine ​​și termeni ai ontologiei genice . da
BioCreAtIvE 2 BioCreAtIvE 15.000 de propoziții (10.000 de antrenamente și 5.000 de teste, diferite de primul corpus) adnotate pentru nume de proteine ​​și gene. 542 de rezumate legate de identificatorii EntrezGene . O varietate de articole de cercetare adnotate pentru caracteristicile interacțiunilor proteină-proteină . da
BioCreative V CDR Task Corpus (BC5CDR) BioCreAtIvE 1.500 de articole (titlu și rezumat) publicate în 2014 sau ulterior, adnotate pentru 4.409 substanțe chimice, 5.818 boli și 3116 interacțiuni chimice-boli. da
BioInfer Pyysalo și colab. 1.100 de propoziții din rezumate de cercetare biomedicală adnotate pentru relații, entități denumite și dependențe sintactice. Nu
BioScope Vincze și colab. 1.954 de rapoarte clinice, 9 lucrări și 1.273 de rezumate adnotate pentru scop lingvistic și termeni care denotă negație sau incertitudine. da
BioText Recunoașterea definițiilor de abreviere Proiect BioText 1.000 de rezumate pe tema „drojdiei”, adnotate pentru abrevieri și semnificațiile acestora. da
Date despre interacțiunea dintre proteine ​​și proteine ​​BioText Proiect BioText 1.322 propoziții care descriu interacțiunile proteină-proteină între HIV-1 și proteinele umane, adnotate cu tipuri de interacțiune. da
Baza de date comparativă de toxicogenomică Davis și colab. O bază de date cu asociații curate manual între substanțe chimice, produse genetice, fenotipuri, boli și expuneri la mediu. da
CRAFT Verspoor și colab. 97 de publicații biomedicale full-text adnotate cu structuri lingvistice și concepte biologice da
GENIA Corpus Proiectul GENIA 1.999 rezumate de cercetare biomedicală pe subiecte „umane”, „celule sanguine” și „factori de transcripție”, adnotate pentru părți de vorbire, sintaxă, termeni, evenimente, relații și referințe core . da
FamPlex Bachman și colab. Numele și familiile proteinelor legate de identificatori unici. Include seturi de afixări . da
FlySlip Abstracts FlySlip 82 de rezumate de cercetare despre Drosophila adnotate cu nume de gene. da
FlySlip Full Papers FlySlip 5 lucrări de cercetare despre Drosophila adnotate cu relații anaforice între sintagme nominale referitoare la gene și entități înrudite biologic. da
Propoziții speculative FlySlip FlySlip Peste 1.500 de propoziții adnotate ca speculative sau nu speculative. Include adnotări de clauze. da
IEPA Ding și colab. 486 propoziții din rezumate de cercetare biomedicală adnotate pentru perechi de substanțe chimice care apar simultan, inclusiv proteine. Nu
Corpus JNLPBA Kim și colab. O versiune extinsă a versiunii 3 a corpului GENIA pentru sarcini NER. Nu
Învățarea limbii în logică (LLL) Nédellec și colab. 77 de propoziții din articole de cercetare despre bacteria Bacillus subtilis , adnotate pentru interacțiuni proteină-genă. da
Rubricile subiectului medical (MeSH) Biblioteca Națională de Medicină Terminologie organizată ierarhic pentru indexarea și catalogarea documentelor biomedicale. da
Metathesaurus Biblioteca Națională de Medicină / UMLS 3,67 milioane de concepte și 14 milioane de nume de concept, mapate între peste 200 de surse de vocabular biomedical și identificatori. Da, cu acordul de licență UMLS
MIMIC-III Laboratorul MIT pentru fiziologie computațională date dezidentificate asociate cu 53.423 internări distincte în spital pentru pacienții adulți. Necesită instruire și solicitare formală de acces
Corpul ODIE Savova și colab. 180 note clinice adnotate cu 5.992 perechi de coreferență . Nu
SUMAT Hersh și colab. 348.566 rezumate de cercetare biomedicală și informații de indexare de la MEDLINE , inclusiv MeSH (începând cu 1991). da
PMC Open Access Subset Biblioteca Națională de Medicină / PubMed Central Peste 2 milioane de articole de cercetare, actualizate săptămânal. da
RxNorm Biblioteca Națională de Medicină / UMLS Denumiri normalizate pentru medicamente clinice și pachete de medicamente, cu ingrediente combinate, concentrații și formă și tipuri atribuite din rețeaua semantică. Da, cu acordul de licență UMLS
Rețea semantică Biblioteca Națională de Medicină / UMLS Liste de 133 de tipuri semantice și 54 de relații semantice care acoperă concepte biomedicale și vocabular. Da, cu acordul de licență UMLS
Lexicon SPECIALIST Biblioteca Națională de Medicină / UMLS Un lexic sintactic al englezei biomedicale și generale. da
Dezambiguizarea sensului de cuvânt (WSD) Biblioteca Națională de Medicină / UMLS 203 de cuvinte ambigue și 37888 au extras automat cazuri de utilizare a acestora în publicații de cercetare biomedicală. Da, cu acordul de licență UMLS
Yapex Franzén și colab. 200 de rezumate de cercetare biomedicală adnotate cu nume de proteine. Nu

Încorporări de cuvinte

Mai multe grupuri au dezvoltat seturi de vocabular biomedical mapat la vectori de numere reale, cunoscute sub numele de vectori de cuvinte sau încorporări de cuvinte . Sursele de încorporări pre-instruite specifice vocabularului biomedical sunt enumerate în tabelul de mai jos. Majoritatea sunt rezultatele modelului word2vec dezvoltat de Mikolov et al sau variante ale word2vec.

Incorporări de cuvinte biomedicale
Pune un nume Autori sau grup Conținut și sursă Citare
BioASQword2vec BioASQ Vectori produși de word2vec din 10.876.004 de rezumate în limba engleză PubMed .
resurse bio.nlplab.org Pyysalo și colab. O colecție de vectori de cuvinte produse prin diferite abordări, instruite pe text de la PubMed și PubMed Central .
BioVec Asgari și Mofrad Vectori pentru secvențe de gene și proteine, instruiți cu Swiss-Prot .
RadiologieReportEmbedding Banerjee și colab. Vectori produși de word2vec din textul a 10.000 de rapoarte de radiologie.

Aplicații

O diagramă a unui protocol de extragere a textului.
Un exemplu de protocol de extragere a textului utilizat într-un studiu al complexelor proteină-proteină sau al andocării proteinelor .

Aplicații miniere Textul în domeniul biomedical includ abordari de calcul pentru a ajuta cu studii in andocare proteine , proteine interactiuni , si asociatiile de proteine de boala.

Identificarea clusterelor genetice

Au fost dezvoltate metode pentru determinarea asocierii grupurilor genetice obținute prin experimente de microarray cu contextul biologic furnizat de literatura corespunzătoare.

Interacțiuni proteice

A fost explorată extracția automată a interacțiunilor proteine ​​și a asocierilor proteinelor la concepte funcționale (de exemplu, termeni ai ontologiei genetice ). Motorul de căutare PIE a fost dezvoltat pentru a identifica și a returna mențiunile de interacțiune proteină-proteină din articolele indexate MEDLINE . Extracția parametrilor cinetici din text sau localizarea subcelulară a proteinelor au fost, de asemenea, abordate prin extragerea informațiilor și tehnologia de extragere a textului.

Asocieri gen-boli

Exploatarea textului poate ajuta la prioritizarea genelor sau la identificarea genelor cu cel mai mare risc de a contribui la boli genetice . Un grup a comparat mai multe vocabulare, reprezentări și algoritmi de clasificare pentru a dezvolta criterii de stabilire a priorităților genice.

Asocieri genetice

Un grup de genomică agricolă a identificat genele legate de trăsăturile de reproducere a bovinelor folosind extragerea textului, printre alte abordări.

Asocieri proteine-boli

Exploatarea textului permite o evaluare imparțială a relațiilor proteină-boală într-o cantitate mare de date textuale nestructurate .

Aplicații ale mineritului de expresii la asociațiile de boli

Un studiu de extragere a textului a reunit o colecție de 709 proteine ​​de matrice extracelulară de bază și proteine ​​asociate pe baza a două baze de date: MatrixDB ( matrixdb.univ-lyon1.fr ) și UniProt . Acest set de proteine ​​avea o dimensiune ușor de gestionat și un corp bogat de informații asociate, făcându-l potrivit pentru aplicarea instrumentelor de extragere a textului. Cercetătorii au efectuat analize de extragere a frazelor pentru a examina încrucișat proteinele matricei extracelulare individuale în literatura de specialitate biomedicală, în cauză cu șase categorii de boli cardiovasculare . Ei au folosit o conductă de extragere a frazelor, Procesarea analitică online semantică conștientă de context (CaseOLAP), apoi au punctat semantic toate cele 709 de proteine ​​în funcție de integritate, popularitate și distinctivitate folosind conducta CaseOLAP. Studiul minier de text a validat relațiile existente și a informat procesele biologice nerecunoscute anterior în fiziopatologia cardiovasculară.

Instrumente software

Motoare de căutare

Motoarele de căutare concepute pentru a prelua literatura biomedicală relevantă pentru o interogare furnizată de utilizator se bazează frecvent pe abordările miniere de text. Instrumentele disponibile public specifice literaturii de cercetare includ căutarea PubMed , căutarea în Europa PubMed Central , GeneView și APSE În mod similar, au fost dezvoltate motoare de căutare și sisteme de indexare specifice datelor biomedicale, inclusiv DataMed și OmicsDI.

Unele motoare de căutare, cum ar fi Essie, OncoSearch, PubGene și GoPubMed erau publice anterior , dar de atunci au fost întrerupte, caduce, sau integrate în produse comerciale.

Sisteme de analiză a istoricului medical

Fișele medicale electronice (EMR) și fișele medicale electronice (EHR) sunt colectate de personalul clinic în timpul diagnosticului și tratamentului. Deși aceste înregistrări includ în general componente structurate cu formate și tipuri de date previzibile, restul rapoartelor sunt adesea text liber și sunt dificil de căutat, ceea ce duce la provocări cu îngrijirea pacientului. Au fost dezvoltate numeroase sisteme și instrumente complete pentru a analiza aceste porțiuni de text liber. Sistemul MedLEE a fost inițial dezvoltat pentru analiza rapoartelor de radiologie toracică , dar ulterior a fost extins la alte subiecte ale raportului. Sistemul clinic de analiză a textului și de extragere a cunoștințelor, sau cTAKES , adnotează textul clinic folosind un dicționar de concepte. Sistemul CLAMP oferă funcționalități similare cu o interfață ușor de utilizat.

Cadre

Cadrele computaționale au fost dezvoltate pentru a construi rapid instrumente pentru activitățile de minerit de text biomedical. SwellShark este un cadru pentru NER biomedical care nu necesită date etichetate de om, dar folosește resurse pentru supravegherea slabă (de exemplu, tipuri semantice UMLS ). Cadrul SparkText folosește fluxul de date Apache Spark , o bază de date NoSQL și metode de învățare automată de bază pentru a construi modele predictive din articole științifice.

API-uri

Unele instrumente de extragere a textului biomedical și de procesare a limbajului natural sunt disponibile prin interfețe de programare a aplicațiilor sau API-uri . NOBLE Coder efectuează recunoașterea conceptului printr-un API.

Conferințe

Următoarele conferințe și ateliere academice găzduiesc discuții și prezentări despre progresele în domeniul mineritului de texte biomedicale. Majoritatea publică lucrări .

Conferințe pentru mineritul textului biomedical
Numele conferinței Sesiune Proceduri
Reuniunea anuală a Asociației pentru Lingvistică Computațională (ACL) sesiune plenară și ca parte a atelierului BioNLP
Atelier ACL BioNLP
Reuniunea anuală a Asociației Americane de Informatică Medicală (AMIA) în sesiunea plenară
Sisteme inteligente pentru biologie moleculară (ISMB) în sesiunea plenară și în atelierele BioLINK și Bioontologii
Conferința internațională de bioinformatică și biomedicină (BIBM)
Conferința internațională privind gestionarea informației și cunoașterii (CIKM) în cadrul Atelierului internațional privind exploatarea datelor și a textului în informatică biomedicală (DTMBIO)
Reuniunea anuală a Asociației Nord-Americane pentru Lingvistică Computațională (NAACL) sesiune plenară și ca parte a atelierului BioNLP
Simpozionul Pacific pe biocomputere (PSB) în sesiunea plenară
Aplicații practice de biologie computațională și bioinformatică (PACBB)
Text REtrieval Conference (TREC) anterior ca parte a piesei TREC Genomics ; începând din 2018, parte a piesei Medicină de precizie

Jurnale

O varietate de reviste academice care publică manuscrise despre biologie și medicină includ subiecte în mineritul textului și software-ul de procesare a limbajului natural. Unele reviste, inclusiv Journal of the American Medical Informatics Association (JAMIA) și Journal of Biomedical Informatics sunt publicații populare pentru aceste subiecte.

Referințe

Lecturi suplimentare

linkuri externe