Site de legare a ADN-ului - DNA binding site

Situsurile de legare a ADN-ului sunt un tip de situs de legare găsit în ADN unde alte molecule se pot lega. Siturile de legare a ADN-ului sunt distincte de alte site-uri de legare prin faptul că (1) fac parte dintr-o secvență de ADN (de exemplu, un genom) și (2) sunt legate de proteinele de legare a ADN-ului . Siturile de legare a ADN-ului sunt adesea asociate cu proteine ​​specializate cunoscute sub numele de factori de transcripție și sunt astfel legați de reglarea transcripțională . Suma siturilor de legare a ADN-ului unui factor de transcripție specific este denumită cistrom . Site-urile de legare a ADN-ului cuprind, de asemenea, țintele altor proteine, cum ar fi enzimele de restricție , recombinazele site-specific (vezi recombinarea site-specific ) și metiltransferazele .

Siturile de legare a ADN-ului pot fi astfel definite ca secvențe de ADN scurte (de obicei 4 până la 30 de perechi de baze lungi, dar până la 200 bp pentru siturile de recombinare) care sunt legate în mod specific de una sau mai multe proteine ​​de legare a ADN-ului sau complexe de proteine. S-a raportat că unele site-uri de legare au potențialul de a suferi schimbări evolutive rapide.

Tipuri de site-uri de legare a ADN-ului

Siturile de legare a ADN-ului pot fi clasificate în funcție de funcția lor biologică. Astfel, putem distinge între site-uri de legare a factorilor de transcripție, site-uri de restricție și site-uri de recombinare. Unii autori au propus că site-urile de legare ar putea fi, de asemenea, clasificate în funcție de modul lor cel mai convenabil de reprezentare. Pe de o parte, siturile de restricție pot fi în general reprezentate prin secvențe consens. Acest lucru se datorează faptului că vizează în principal secvențe identice și eficiența restricției scade brusc pentru secvențe mai puțin similare. Pe de altă parte, situsurile de legare a ADN-ului pentru un factor de transcripție dat sunt de obicei toate diferite, cu grade diferite de afinitate a factorului de transcripție pentru diferitele situsuri de legare. Acest lucru face dificilă reprezentarea cu precizie a siturilor de legare a factorului de transcripție folosind secvențe consens și sunt de obicei reprezentate folosind matrici de frecvență specifice poziției (PSFM), care sunt adesea reprezentate grafic folosind sigle de secvență . Cu toate acestea, acest argument este parțial arbitrar. Enzimele de restricție, cum ar fi factorii de transcripție, produc o gamă graduală, deși ascuțită, de afinități pentru diferite site-uri și, prin urmare, sunt reprezentate cel mai bine de PSFM. De asemenea, recombinazele specifice site-ului prezintă, de asemenea, o gamă variată de afinități pentru diferite site-uri țintă.

Istorie și principalele tehnici experimentale

Existența a ceva asemănător situsurilor de legare a ADN-ului a fost suspectată din experimentele privind biologia bacteriofagului lambda și reglarea operonului Escherichia coli lac . Siturile de legare a ADN-ului au fost confirmate în cele din urmă în ambele sisteme odată cu apariția tehnicilor de secvențiere a ADN-ului . De atunci, locurile de legare a ADN-ului pentru mulți factori de transcripție, enzime de restricție și recombinaze specifice site-ului au fost descoperite folosind o abundență de metode experimentale. Din punct de vedere istoric, tehnicile experimentale de alegere pentru a descoperi și analiza site-urile de legare a ADN-ului au fost testul de amprentă a DNAse și testul de schimbare a mobilității electroforetice (EMSA). Cu toate acestea, dezvoltarea de microarrays de ADN și tehnici de secvențiere rapidă a condus la noi metode paralele masive pentru identificarea in-vivo a siturilor de legare, precum ChIP-chip și ChIP-Seq . Pentru a cuantifica afinitatea de legare a proteinelor și a altor molecule la site-urile specifice de legare a ADN-ului, se utilizează metoda biofizică Thermophoresis Microscale .

Baze de date

Datorită naturii diverse a tehnicilor experimentale utilizate în determinarea siturilor de legare și a acoperirii neuniforme a majorității organismelor și a factorilor de transcripție, nu există o bază de date centrală (asemănătoare cu GenBank la Centrul Național pentru Informații Biotehnologice ) pentru siturile de legare a ADN-ului. Chiar dacă NCBI are în vedere adnotarea site-ului de legare a ADN-ului în secvențele sale de referință ( RefSeq ), majoritatea documentelor omit aceste informații. Mai mult decât atât, datorită succesului limitat al bioinformaticii în producerea unor instrumente eficiente de predicție a sitului de legare a ADN-ului ( rate mari pozitive fals sunt adesea asociate cu metodele de descoperire a motivelor in-silico / metode de căutare a site-ului), nu a existat niciun efort sistematic de adnotare computerizată a acestor caracteristici în secvențierea secvențială. genomi.

Există, totuși, mai multe baze de date private și publice dedicate compilării site-urilor de legare raportate experimental, și uneori previzionate prin calcul, pentru diferiți factori de transcripție în diferite organisme. Mai jos este un tabel neexhaustiv al bazelor de date disponibile:

Nume Organisme Sursă Acces URL
PlantRegMap 165 de specii de plante (de exemplu, Arabidopsis thaliana, Oryza sativa, Zea mays etc.) Curarea și proiecția expertului Public [1]
JASPAR Vertebrate, plante, ciuperci, muște și viermi Curator de experți cu sprijin literar Public [2]
CIS-BP Toți eucariotele Motive și predicții derivate experimental Public [3]
CollecTF Procariote Curatorie de literatură Public [4]
RegPrecise Procariote Curarea expertului Public [5]
RegTransBase Procariote Curator expert / literatură Public [6]
RegulonDB Escherichia coli Curarea expertului Public [7]
PRODORIC Procariote Curarea expertului Public [8]
TRANSFAC Mamifere Curator expert / literatură Public privat [9]
TRED Om, șoarece, șobolan Predicții computerizate, curare manuală Public [10]
DBSD Specie de Drosophila Literatură / Curator de experți Public [11]
HOCOMOCO Omule, Șoricel Literatură / Curator de experți Public [12] , [13]
MethMotif Omule, Șoricel Curarea expertului Public [14]

Reprezentarea siturilor de legare a ADN-ului

O colecție de situsuri de legare a ADN-ului, denumită în mod obișnuit un motiv de legare a ADN-ului, poate fi reprezentată printr-o secvență consens . Această reprezentare are avantajul de a fi compactă, dar în detrimentul ignorării unei cantități substanțiale de informații. Un mod mai precis de reprezentare a site-urilor de legare este prin Matricile de Frecvență Specifică de Poziție (PSFM). Aceste matrice oferă informații despre frecvența fiecărei baze la fiecare poziție a motivului de legare a ADN-ului. PSFM sunt de obicei concepute cu presupunerea implicită a independenței poziționale (poziții diferite la locul de legare a ADN-ului contribuie independent la funcția sitului), deși această ipoteză a fost contestată pentru unele site-uri de legare a ADN-ului. Informațiile de frecvență într-un PSFM pot fi interpretate formal în cadrul teoriei informației , ducând la reprezentarea sa grafică ca siglă de secvență .

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
A 1 0 1 5 32 5 35 23 34 14 43 13 34 4 52 3
C 50 1 0 1 5 6 0 4 4 13 3 8 17 51 2 0
G 0 0 54 15 5 5 12 2 7 1 1 3 1 0 1 52
T 5 55 1 35 14 40 9 27 11 28 9 32 4 1 1 1
Sumă 56 56 56 56 56 56 56 56 56 56 56 56 56 56 56 56

PSFM pentru reprimatorul transcripțional LexA derivat din 56 de site-uri de legare LexA stocate în Prodoric. Frecvențele relative se obțin prin împărțirea numărărilor din fiecare celulă la numărul total (56)

Căutare computațională și descoperirea site-urilor de legare

În bioinformatică , se poate distinge între două probleme separate în ceea ce privește situsurile de legare a ADN-ului: căutarea de membri suplimentari ai unui motiv cunoscut de legare a ADN-ului (problema căutării site-ului) și descoperirea de noi motive de legare a ADN-ului în colecții de secvențe corelate funcțional ( problema de descoperire a motivului de secvență ) . Multe metode diferite au fost propuse pentru a căuta site-uri de legare. Majoritatea se bazează pe principiile teoriei informației și au disponibile servere web (Yellaboina) (Munch), în timp ce alți autori au recurs la metode de învățare automată , cum ar fi rețelele neuronale artificiale . O multitudine de algoritmi este, de asemenea, disponibilă pentru descoperirea motivelor de secvență . Aceste metode se bazează pe ipoteza că un set de secvențe împărtășesc un motiv obligatoriu din motive funcționale. Metodele de descoperire a motivelor obligatorii pot fi împărțite aproximativ în enumerative, deterministe și stochastice. MEME și Consensus sunt exemple clasice de optimizare deterministă, în timp ce eșantionatorul Gibbs este implementarea convențională a unei metode pur stochastice pentru descoperirea motivelor de legare a ADN-ului. O altă instanță a acestei clase de metode este SeSiMCMC care se concentrează pe site-uri TFBS slabe cu simetrie. În timp ce metodele enumerative recurg adesea la reprezentarea regulată a expresiei siturilor de legare, PSFM și tratamentul lor formal în cadrul metodelor Teorii informației reprezintă reprezentarea de alegere atât pentru metodele deterministe, cât și pentru cele stocastice. Metodele hibride, de ex. ChIPMunk care combină optimizarea lacomă cu submasionarea, folosesc și PSFM. Progresele recente în secvențiere au condus la introducerea abordărilor de genomică comparativă pentru descoperirea motivelor de legare a ADN-ului, așa cum este exemplificat de PhyloGibbs.

Metode mai complexe pentru căutarea site-ului de legare și descoperirea motivelor se bazează pe stivuirea bazelor și pe alte interacțiuni între bazele ADN, dar datorită dimensiunilor mici ale eșantionului disponibile în mod obișnuit pentru siturile de legare în ADN, eficiența lor nu este încă valorificată complet. Un exemplu de astfel de instrument este ULPB

Vezi si

Referințe

linkuri externe