Regiune de codificare - Coding region

Regiunea de codificare a unei gene , cunoscută și sub numele de CDS (din secvența de ADN de codificare ), este porțiunea ADN - ului sau ARN- ului unei gene care codifică proteinele . Studierea lungimii, compoziției, reglării, îmbinării, structurilor și funcțiilor regiunilor codificatoare comparativ cu regiunile necodificatoare pe diferite specii și perioade de timp poate oferi o cantitate semnificativă de informații importante cu privire la organizarea genelor și evoluția procariotelor și eucariotelor . Acest lucru poate ajuta în continuare la cartografierea genomului uman și la dezvoltarea terapiei genetice.

Definiție

Deși acest termen este, uneori, folosit și interschimbabil cu exonul , nu este exact același lucru: exonul este compus din regiunea de codificare, precum și din regiunile netranslate 3 'și 5' ale ARN-ului și, prin urmare, un exon ar fi parțial alcătuită din regiuni de codificare. Regiunile netranslate 3 'și 5' ale ARN-ului, care nu codifică proteinele, sunt denumite regiuni necodificate și nu sunt discutate pe această pagină.

Există adesea confuzie între regiunile de codificare și exomes și există o distincție clară între acești termeni. În timp ce exomul se referă la toți exonii dintr-un genom, regiunea de codificare se referă la o secțiune singulară a ADN-ului sau ARN-ului care codifică în mod specific un anumit tip de proteină.  

Istorie

În 1978, Walter Gilbert a publicat „De ce genele în bucăți”, care a început mai întâi să exploreze ideea că gena este un mozaic - că fiecare catenă completă de acid nucleic nu este codificată continuu, ci este întreruptă de regiunile necodificate „tăcute”. Acesta a fost primul indiciu că trebuie să existe o distincție între părțile genomului care codifică proteinele, numite acum regiuni de codificare și cele care nu.

Compoziţie

Tipuri de mutație punctuală: tranzițiile (albastru) sunt crescute comparativ cu transversiile (roșu) în regiunile de codificare bogate în GC.

Dovezile sugerează că există o interdependență generală între modelele de compoziție de bază și disponibilitatea regiunii de codificare. Se crede că regiunea de codificare conține un conținut GC mai mare decât regiunile necodificate. Există cercetări ulterioare care au descoperit că, cu cât este mai mare firul de codare, cu atât este mai mare conținutul GC. Toroane de codare scurte sunt comparativ încă sărace în GC, similar cu conținutul scăzut de GC al codonilor de oprire translațională de compoziție de bază cum ar fi TAG, TAA și TGA.

Zonele bogate în GC sunt, de asemenea, în care tipul mutației punctului de raport este ușor modificat: există mai multe tranziții , care sunt schimbări de la purină la purină sau pirimidină la pirimidină, comparativ cu transversiile , care sunt schimbări de la purină la pirimidină sau pirimidină la purină. Tranzițiile sunt mai puțin susceptibile de a modifica aminoacidul codificat și rămân o mutație silențioasă (mai ales dacă apar în cel de-al treilea nucleotid al unui codon) care este de obicei benefic organismului în timpul translației și formării proteinelor.

Acest lucru indică faptul că regiunile esențiale de codificare (bogate în gene) sunt mai mari în conținutul de GC și mai stabile și mai rezistente la mutație comparativ cu regiunile accesorii și neesențiale (sărace în gene). Cu toate acestea, nu este încă clar dacă acest lucru a apărut prin mutație neutră și aleatorie sau printr-un model de selecție . Există, de asemenea, dezbateri dacă metodele utilizate, cum ar fi ferestrele genetice, pentru a stabili relația dintre conținutul GC și regiunea de codificare sunt corecte și imparțiale.

Structura și funcția

Transcriere : ARN polimeraza (RNAP) folosește un șablon de catenă ADN și începe codificarea la secvența promotor (verde) și se termină la secvența terminator (roșu) pentru a cuprinde întreaga regiune de codificare în pre-mARN (teal). Pre-ARNm este polimerizat de 5 'la 3' și șablonul ADN citește de la 3 'la 5'
O micrografie electronică a catenelor de ADN decorate cu sute de molecule RNAP prea mici pentru a fi rezolvate. Fiecare RNAP transcrie o catenă de ARN, care poate fi văzută ramificându-se din ADN. "Begin" indică capătul 3 'al ADN-ului, unde RNAP inițiază transcrierea; "End" indică capătul 5 ', unde moleculele ARN mai lungi sunt complet transcrise.

În ADN , regiunea de codificare este flancată de secvența promotor la capătul 5 'al catenei șablon și secvența de terminare la capătul 3'. În timpul transcrierii , ARN polimeraza (RNAP) se leagă de secvența promotorului și se deplasează de-a lungul firului șablon la regiunea de codificare. RNAP adaugă apoi nucleotide ARN complementare regiunii de codificare pentru a forma ARNm , substituind uracil în locul timinei . Aceasta continuă până când RNAP atinge secvența de terminare.

După transcriere și maturare, mARN-ul matur format cuprinde mai multe părți importante pentru eventuala sa translație în proteină . Regiunea de codificare într-un ARNm este flancată de regiunea netradusă 5 ' (5'-UTR) și regiunea netradusă 3' (3'-UTR), capacul 5 ' și coada Poly-A . În timpul traducerii , ribozomul facilitează atașarea ARNt la regiunea de codificare, 3 nucleotide la un moment dat ( codoni ). ARNt își transferă aminoacizii asociați lanțului polipeptidic în creștere , formând în cele din urmă proteina definită în regiunea inițială de codificare a ADN-ului.

Regiunea de codificare (teal) este flancată de regiuni netraduse, capacul 5 'și coada poli (A) care formează împreună ARNm matur .

Regulament

Regiunea de codificare poate fi modificată pentru a regla expresia genelor.

Alchilarea este o formă de reglare a regiunii de codificare. Gena care ar fi fost transcrisă poate fi redusă la tăcere prin vizarea unei secvențe specifice. Bazele din această secvență ar fi blocate folosind grupări alchil , care creează efectul de tăcere .

În timp ce reglarea expresiei genelor gestionează abundența de ARN sau proteine ​​produse într-o celulă, reglarea acestor mecanisme poate fi controlată printr-o secvență de reglare găsită înainte ca rama deschisă de citire să înceapă într-un fir de ADN. Secvența de reglare va determina apoi locația și momentul în care expresia va avea loc pentru o regiune de codificare a proteinei.

Împletirea ARN determină în cele din urmă ce parte a secvenței devine tradusă și exprimată, iar acest proces implică tăierea intronilor și reunirea exonilor. Totuși, în cazul în care ARN spliceozomul este tăiat, este ghidat de recunoașterea siturilor de splice , în special a sitului de îmbinare 5, care este unul dintre substraturile pentru primul pas în îmbinare. Regiunile de codificare se află în interiorul exonilor, care se unesc covalent pentru a forma ARN mesager matur .

Mutații

Mutațiile din regiunea de codificare pot avea efecte foarte diverse asupra fenotipului organismului. În timp ce unele mutații din această regiune a ADN / ARN pot duce la modificări avantajoase, altele pot fi dăunătoare și uneori chiar letale pentru supraviețuirea unui organism. În schimb, modificările din regiunea de codificare nu pot duce întotdeauna la modificări detectabile ale fenotipului.

Tipuri de mutație

Exemple ale diferitelor forme de mutații punctuale care pot exista în regiunile de codificare. Astfel de modificări pot avea sau nu modificări fenotipice, în funcție de codificarea sau nu a diferiților aminoacizi în timpul traducerii.

Există diferite forme de mutații care pot apărea în regiunile de codificare. O formă este mutațiile silențioase , în care o modificare a nucleotidelor nu are ca rezultat nicio modificare a aminoacizilor după transcriere și traducere. Există, de asemenea, mutații fără sens , în care modificările bazelor în codul regiunii de codificare pentru un codon oprit prematur, producând o proteină finală mai scurtă. Mutațiile punctiforme sau modificările unei singure perechi de baze în regiunea de codificare, care codifică diferiți aminoacizi în timpul translației, se numesc mutații missense . Alte tipuri de mutații includ mutații framehift, cum ar fi inserții sau ștergeri .

Formare

Unele forme de mutații sunt ereditare ( mutații germinale ) sau transmise de la un părinte la descendenții săi. Astfel de regiuni de codificare mutante sunt prezente în toate celulele din organism. Alte forme de mutații sunt dobândite ( mutații somatice ) pe parcursul vieții unui organism și pot să nu fie constante de la celulă la celulă. Aceste modificări pot fi cauzate de mutageni , agenți cancerigeni sau alți agenți de mediu (ex. UV ). Mutațiile dobândite pot fi, de asemenea, rezultatul unor erori de copiere în timpul replicării ADN și nu sunt transmise descendenților. Modificările din regiunea de codificare pot fi, de asemenea, de novo (noi); se consideră că astfel de modificări apar la scurt timp după fecundare , rezultând o mutație prezentă în ADN-ul descendenților în timp ce este absentă atât în ​​celulele spermei, cât și în celulele ovulelor.

Prevenirea

Există mecanisme multiple de transcriere și traducere pentru a preveni letalitatea din cauza mutațiilor dăunătoare în regiunea de codificare. Astfel de măsuri includ corectura de către unele polimeraze ADN în timpul replicării, repararea nepotrivirii după replicare și „ Ipoteza Wobble ” care descrie degenerarea celei de-a treia baze dintr-un codon mARN.

Regiuni de codare restricționate (CCR)

Deși este bine cunoscut faptul că genomul unui individ poate avea diferențe extinse în comparație cu genomul altuia, cercetări recente au descoperit că unele regiuni de codificare sunt extrem de constrânse sau rezistente la mutații, între indivizii din aceeași specie. Acest lucru este similar cu conceptul de constrângere interspecie în secvențe conservate . Cercetătorii au denumit aceste secvențe foarte constrânse regiuni de codificare constrânse (CCR) și au descoperit, de asemenea, că astfel de regiuni pot fi implicate în selecția de purificare ridicată . În medie, există aproximativ 1 mutație care modifică proteinele la fiecare 7 baze de codificare, dar unele CCR pot avea peste 100 de baze în secvență, fără mutații care modifică proteinele observate, unele fără chiar mutații sinonime. Aceste modele de constrângere între genomi pot oferi indicii asupra surselor de boli rare ale dezvoltării sau potențial chiar letalității embrionare. Variantele validate clinic și mutațiile de novo în CCR au fost legate anterior de tulburări precum encefalopatia epileptică infantilă , întârzierea dezvoltării și bolile cardiace severe.

Detectarea secvenței de codare

În timp ce identificarea cadrelor de citire deschise într-o secvență de ADN este simplă, identificarea secvențelor de codare nu este, deoarece celula traduce doar un subset al tuturor cadrelor de citire deschise în proteine. În prezent, predicția CDS utilizează eșantionarea și secvențierea ARNm din celule, deși există încă problema determinării părților unui ARNm dat care sunt de fapt traduse în proteine. Predicția CDS este un subset de predicție genică , aceasta din urmă incluzând și predicția secvențelor ADN care codifică nu numai proteinele, ci și alte elemente funcționale, cum ar fi genele ARN și secvențele reglatoare.

Atât în procariote, cât și în eucariote , suprapunerea genelor apare relativ des în virusurile ADN și ARN ca un avantaj evolutiv pentru reducerea dimensiunii genomului, păstrând în același timp capacitatea de a produce diverse proteine ​​din regiunile de codificare disponibile. Atât pentru ADN, cât și pentru ARN, aliniamentele în perechi pot detecta regiuni de codare suprapuse, inclusiv cadre scurte de citire deschise în viruși, dar ar necesita o șir de codare cunoscut pentru a compara potențialul șir de codare suprapus. O metodă alternativă care utilizează secvențe cu un singur genom nu ar necesita mai multe secvențe de genom pentru a executa comparații, dar ar necesita cel puțin 50 de nucleotide suprapuse pentru a fi sensibile.

Vezi si

Referințe