Pfam - Pfam

Pfam
Logo Pfam.gif
Conţinut
Descriere Baza de date Pfam oferă alinieri și modele ascunse Markov pentru domeniile de proteine.
Tipuri de date
capturate
Familiile de proteine
Organisme toate
a lua legatura
Centru de cercetare EBI
Citarea primară PMID  19920124
Acces
Format date Formatul Stockholm
Site-ul web pfam .xfam .org
Descărcați adresa URL FTP 1 FTP 2
Diverse
Licență Licență publică generală mai mică GNU
Versiune 33.1

Entități marcabile
da

Pfam este o bază de date a familiilor de proteine care include adnotările și alinierea secvențelor multiple generate folosind modele ascunse Markov . Cea mai recentă versiune, Pfam 34.0, a fost lansată în martie 2021 și conține 19.179 de familii.

Utilizări

Scopul general al bazei de date Pfam este de a oferi o clasificare completă și precisă a familiilor și domeniilor de proteine. Inițial, rațiunea din spatele creării bazei de date a fost de a avea o metodă semi-automată de curatare a informațiilor despre familiile de proteine ​​cunoscute pentru a îmbunătăți eficiența adnotării genomilor. Clasificarea Pfam a familiilor de proteine ​​a fost adoptată pe scară largă de către biologi datorită acoperirii sale largi a proteinelor și a convențiilor de denumire sensibile.

Este folosit de biologii experimentali care cercetează proteine ​​specifice, de biologii structurali pentru a identifica noi ținte pentru determinarea structurii, de biologii de calcul pentru a organiza secvențe și de biologii evolutivi care urmăresc originile proteinelor. Proiectele timpurii ale genomului, cum ar fi umanul și musca, au folosit Pfam pe scară largă pentru adnotarea funcțională a datelor genomice.

Site-ul web Pfam permite utilizatorilor să trimită secvențe de proteine ​​sau ADN pentru a căuta potriviri familiilor din baza de date. Dacă se trimite ADN, se efectuează o traducere cu șase cadre , apoi se caută fiecare cadru. Mai degrabă decât efectuarea unei căutări tipice BLAST , Pfam folosește modele Markov ascunse de profil , care dau o greutate mai mare potrivirilor de pe site-urile conservate , permițând o mai bună detectare a omologiei la distanță, făcându-le mai potrivite pentru adnotarea genomurilor organismelor fără rude apropiate bine adnotate.

Pfam a fost, de asemenea, utilizat în crearea altor resurse, cum ar fi iPfam , care catalogează interacțiunile domeniu-domeniu din și între proteine, pe baza informațiilor din bazele de date structurale și cartografierea domeniilor Pfam pe aceste structuri.

Caracteristici

Pentru fiecare familie din Pfam se poate:

  • Vizualizați o descriere a familiei
  • Uită-te la mai multe alinieri
  • Vizualizați arhitecturile domeniului proteinei
  • Examinați distribuția speciilor
  • Urmați link-uri către alte baze de date
  • Vedeți structurile proteice cunoscute

Intrările pot fi de mai multe tipuri: familie, domeniu, repetare sau motiv. Familia este clasa implicită, ceea ce indică pur și simplu că membrii sunt înrudiți. Domeniile sunt definite ca o unitate structurală autonomă sau o unitate de secvență reutilizabilă care poate fi găsită în contexte proteice multiple. Repetările nu sunt de obicei stabile în mod izolat, ci mai degrabă sunt de obicei necesare pentru a forma repetări în tandem pentru a forma un domeniu sau o structură extinsă. Motivele sunt de obicei unități de secvență mai scurte găsite în afara domeniilor globulare.

Descrierile familiilor Pfam sunt gestionate de publicul larg folosind Wikipedia (vezi Istoric ).

Începând cu versiunea 29.0, 76,1% din secvențele de proteine ​​din UniprotKB s-au potrivit cu cel puțin un domeniu Pfam.

Crearea de noi intrări

Noile familii provin dintr-o gamă largă de surse, în primul rând din PDB și din analiza proteinelor complete pentru a găsi gene fără niciun efect Pfam.

Pentru fiecare familie, un subset reprezentativ de secvențe sunt aliniate într-o aliniere de semințe de înaltă calitate. Secvențele pentru alinierea semințelor sunt preluate în primul rând din pfamseq (o bază de date non-redundantă de proteomi de referință) cu unele suplimente de la UniprotKB . Această aliniere a semințelor este apoi utilizată pentru a construi un model Markov ascuns de profil folosind HMMER . Acest HMM este apoi căutat în baza de date de secvențe și toate accesările care ating un prag curat de colectare sunt clasificate ca membri ai familiei de proteine. Colecția rezultată de membri este apoi aliniată la profilul HMM pentru a genera o aliniere completă.

Pentru fiecare familie, este atribuit un prag de colectare manual, care maximizează numărul de potriviri adevărate cu familia, excluzând orice potriviri fals pozitive. Falsele pozitive sunt estimate prin observarea suprapunerilor dintre hiturile familiei Pfam care nu provin din același clan. Acest prag este utilizat pentru a evalua dacă o potrivire cu o familie HMM ar trebui să fie inclusă în familia de proteine. La fiecare actualizare a Pfam, pragurile de colectare sunt reevaluate pentru a preveni suprapunerile între familiile noi și cele existente.

Domenii cu funcție necunoscută

Domeniile funcției necunoscute (DUF) reprezintă o fracțiune în creștere din baza de date Pfam. Familiile sunt denumite astfel deoarece s-a descoperit că sunt conservate între specii, dar îndeplinesc un rol necunoscut. Fiecare DUF nou adăugat este denumit în ordinea adăugării. Numele acestor intrări sunt actualizate pe măsură ce funcțiile lor sunt identificate. În mod normal, când funcția a cel puțin unei proteine ​​aparținând unui DUF a fost determinată, funcția întregului DUF este actualizată și familia este redenumită. Unele familii numite sunt încă domenii cu funcție necunoscută, care poartă numele unei proteine ​​reprezentative, de exemplu YbbR. Se așteaptă ca numărul DUF să crească în continuare, deoarece secvențele conservate de funcție necunoscută continuă să fie identificate în datele secvenței. Se așteaptă ca DUF-urile să depășească în cele din urmă familiile cu funcții cunoscute.

Clanuri

În timp, atât secvența, cât și acoperirea reziduurilor au crescut și, pe măsură ce familiile au crescut, au fost descoperite relații mai evolutive, permițând gruparea familiilor în clanuri. Clanurile au fost introduse pentru prima dată în baza de date Pfam în 2005. Acestea sunt grupuri de familii înrudite care împărtășesc o singură origine evolutivă, confirmată de comparații structurale, funcționale, secvențiale și HMM. Începând cu versiunea 29.0, aproximativ o treime din familiile de proteine ​​aparțineau unui clan. Această parte a crescut la aproximativ trei sferturi până în 2019 (versiunea 32.0).

Pentru a identifica posibilele relații de clan, curatorii Pfam folosesc programul de comparație simplă a rezultatelor (SCOOP), precum și informații din baza de date ECOD. ECOD este o bază de date ierarhică semi-automată a familiilor de proteine ​​cu structuri cunoscute, cu familii care se mapează ușor la intrările Pfam și niveluri de omologie care, de obicei, se mapează la clanurile Pfam.

Istorie

Pfam a fost fondată în 1995 de Erik Sonhammer, Sean Eddy și Richard Durbin ca o colecție de domenii proteice care apar frecvent, care ar putea fi utilizate pentru adnotarea genelor care codifică proteinele animalelor multicelulare. Unul dintre obiectivele sale majore de la început a fost de a ajuta la adnotarea genomului C. elegans . Proiectul a fost parțial condus de afirmația „O mie de familii pentru biologul molecular” de către Cyrus Chothia că există aproximativ 1500 de familii diferite de proteine ​​și că majoritatea proteinelor se încadrează în doar 1000 dintre acestea. Contrar acestei afirmații, baza de date Pfam conține în prezent 16.306 intrări corespunzătoare domeniilor și familiilor de proteine ​​unice. Cu toate acestea, multe dintre aceste familii conțin similitudini structurale și funcționale care indică o origine evolutivă comună (vezi Clanuri ).

Un punct major de diferență între Pfam și alte baze de date în momentul înființării sale a fost utilizarea a două tipuri de aliniere pentru intrări: o aliniere mai mică, verificată manual de semințe, precum și o aliniere completă construită prin alinierea secvențelor la un model Markov ascuns de profil construit din alinierea semințelor. Această aliniere mai mică a semințelor a fost mai ușor de actualizat pe măsură ce au apărut noi versiuni de baze de date de secvențe și, prin urmare, a reprezentat o soluție promițătoare la dilema modului în care să menținem baza de date actualizată, pe măsură ce secvențierea genomului a devenit mai eficientă și mai multe date au fost procesate în timp. . O îmbunătățire suplimentară a vitezei cu care ar putea fi actualizată baza de date a venit în versiunea 24.0, odată cu introducerea HMMER3, care este de ~ 100 de ori mai rapidă decât HMMER2 și mai sensibilă.

Deoarece intrările din Pfam-A nu acoperă toate proteinele cunoscute, a fost furnizat un supliment generat automat numit Pfam-B. Pfam-B conținea un număr mare de familii mici derivate din clustere produse de un algoritm numit ADDA. Deși de calitate inferioară, familiile Pfam-B ar putea fi utile atunci când nu au fost găsite familii Pfam-A. Pfam-B a fost întrerupt începând cu versiunea 28.0, apoi reintrodus în versiunea 33.1 folosind un nou algoritm de grupare, MMSeqs2.

Pfam a fost găzduit inițial pe trei site-uri oglindă din întreaga lume pentru a păstra redundanța. Cu toate acestea, între 2012 și 2014, resursa Pfam a fost mutată în EMBL-EBI , care a permis găzduirea site-ului web dintr-un domeniu (xfam.org), utilizând centre de date independente duplicate. Acest lucru a permis o centralizare mai bună a actualizărilor și gruparea cu alte proiecte Xfam, cum ar fi Rfam , TreeFam , iPfam și altele, păstrând în același timp rezistența critică oferită de găzduirea din mai multe centre.

Pfam a suferit o reorganizare substanțială în ultimii doi ani pentru a reduce în continuare efortul manual implicat în curare și pentru a permite actualizări mai frecvente.

Curarea comunității

Curarea unei baze de date atât de mari a prezentat probleme în ceea ce privește respectarea volumului de noi familii și informații actualizate care trebuiau adăugate. Pentru a accelera lansarea bazei de date, dezvoltatorii au început o serie de inițiative pentru a permite o implicare mai mare a comunității în gestionarea bazei de date.

Un pas critic în îmbunătățirea ritmului de actualizare și îmbunătățire a intrărilor a fost deschiderea adnotării funcționale a domeniilor Pfam către comunitatea Wikipedia în versiunea 26.0. Pentru intrările care aveau deja o intrare pe Wikipedia, aceasta a fost conectată la pagina Pfam, iar pentru cele care nu, comunitatea a fost invitată să creeze una și să informeze curatorii, pentru ca aceasta să fie conectată. Se anticipează că, în timp ce implicarea comunității va îmbunătăți foarte mult nivelul de adnotare a acestor familii, unele vor rămâne insuficient de notabile pentru includerea în Wikipedia, caz în care își vor păstra descrierea originală Pfam. Unele articole Wikipedia acoperă mai multe familii, cum ar fi articolul cu degetul Zinc . De asemenea, a fost implementată o procedură automatizată pentru generarea articolelor bazate pe date InterPro și Pfam, care populează o pagină cu informații și linkuri către baze de date, precum și imagini disponibile, apoi odată ce un articol a fost revizuit de un curator, acesta este mutat din Sandbox în Wikipedia propriu-zisă. Pentru a proteja împotriva vandalismului articolelor, fiecare revizuire Wikipedia este revizuită de curatori înainte de a fi afișată pe site-ul web Pfam. Cu toate acestea, aproape toate cazurile de vandalism au fost corectate de comunitate înainte de a ajunge la curatori.

Pfam este condus de un consorțiu internațional format din trei grupuri. În versiunile anterioare ale Pfam, intrările familiei puteau fi modificate doar pe site-ul Cambridge, Marea Britanie, limitând capacitatea membrilor consorțiului de a contribui la curarea site-ului. În versiunea 26.0, dezvoltatorii s-au mutat într-un nou sistem care le-a permis utilizatorilor înregistrați oriunde în lume să adauge sau să modifice familiile Pfam.

Vezi si

  • Lista bazelor de date biologice
  • PANDIT , o bază de date biologică care acoperă domenii de proteine
  • Baza de date Rfam pentru familii de ARN necodificate conservate
  • TreeFam Baza de date a copacilor filogenetici ai genelor animale
  • Baza de date TrEMBL realizând o adnotare automată a secvenței de proteine
  • InterPro Integrarea domeniilor de proteine ​​și a bazelor de date ale familiei de proteine
  • PDBfam - alocarea temeinică a domeniilor Pfam secvențelor din Protein Data Bank (PDB)

Referințe

linkuri externe

  • Pfam - Baza de date a familiei de proteine ​​la EBI UK
  • iPfam - Interacțiuni ale domeniilor Pfam în PDB
  • PDBfam - Alocări de domenii Pfam la secvențe din PDB la Fox Chase Cancer Center SUA
  • PlantTFDB - Regulile de atribuire a familiei pentru factorii de transcriere a plantelor pe baza domeniilor Pfam