Microarray de ADN - DNA microarray

Cum se folosește un microarray pentru genotipare. Videoclipul arată procesul de extragere a genotipurilor dintr-o probă de scuipat uman folosind microarrays. Genotiparea este o utilizare majoră a microarrays-urilor de ADN, dar cu unele modificări pot fi utilizate și în alte scopuri, cum ar fi măsurarea expresiei genice și markeri epigenetici.

Un microarray de ADN (cunoscut și sub denumirea de cip ADN sau biocip ) este o colecție de pete microscopice de ADN atașate la o suprafață solidă. Oamenii de știință folosesc microarrays-urile de ADN pentru a măsura simultan nivelurile de exprimare a unui număr mare de gene sau pentru a genotipua mai multe regiuni ale unui genom. Fiecare pată ADN conține picomoles (10 -12 moli ) dintr - o secvență ADN specifică, cunoscut sub numele de sonde (sau reporteri sau oligomeri ). Acestea pot fi o secțiune scurtă a unei gene sau a unui alt element ADN care sunt utilizate pentru a hibridiza o probă de ADNc sau ARNc (numită și ARN anti-sens) (numită țintă ) în condiții de severitate ridicată. Hibridizarea sondă-țintă este de obicei detectată și cuantificată prin detectarea țintelor marcate cu fluorofor , argint sau chimiluminiscență pentru a determina abundența relativă a secvențelor de acid nucleic în țintă. Matricile originale de acid nucleic erau macro matrice de aproximativ 9 cm × 12 cm și prima analiză computerizată bazată pe imagini a fost publicată în 1981. A fost inventată de Patrick O. Brown . Un exemplu de aplicare a acestuia este în matricile SNPs pentru polimorfisme în boli cardiovasculare, cancer, agenți patogeni și analiza GWAS. De asemenea, pentru identificarea variațiilor structurale și măsurarea expresiei genelor.

Principiu

Hibridizarea țintei la sondă

Principiul de bază din spatele microarrays-ului este hibridizarea între două catene de ADN, proprietatea secvențelor complementare de acid nucleic de a se împerechea în mod specific între ele prin formarea de legături de hidrogen între perechile de baze de nucleotide complementare . Un număr mare de perechi de baze complementare într-o secvență de nucleotide înseamnă o legătură necovalentă mai strânsă între cele două catene. După spălarea secvențelor de legare nespecifice, numai firele puternic asociate vor rămâne hibridizate. Secvențele țintă etichetate fluorescent care se leagă de o secvență sondă generează un semnal care depinde de condițiile de hibridizare (cum ar fi temperatura) și de spălare după hibridizare. Puterea totală a semnalului, dintr-un punct (caracteristică), depinde de cantitatea de eșantion țintă care se leagă de sondele prezente în acel punct. Microarrays-urile utilizează cuantificarea relativă în care intensitatea unei caracteristici este comparată cu intensitatea aceleiași caracteristici într-o condiție diferită, iar identitatea caracteristicii este cunoscută prin poziția sa.

Pașii necesari într-un experiment de microarray

Utilizări și tipuri

Două jetoane Affymetrix. O potrivire este afișată în partea stângă jos pentru compararea dimensiunilor.

Există multe tipuri de matrice și cea mai largă distincție este dacă sunt dispuse spațial pe o suprafață sau pe margele codificate:

  • Tradiționalul matrice fază solidă este o colecție de microscopice „pete“ ordonate, numite caracteristici, fiecare cu mii de sonde identice și specifice atașate la o suprafață solidă, cum ar fi sticlă , plastic sau siliciu biochip (cunoscut ca un cip de genom , ADN cip sau matrice de gene ). Mii dintre aceste caracteristici pot fi plasate în locații cunoscute pe un singur microarray de ADN.
  • Matricea alternativă de margele este o colecție de margele microscopice de polistiren, fiecare cu o sondă specifică și un raport de doi sau mai mulți coloranți, care nu interferează cu coloranții fluorescenți utilizați pe secvența țintă.

Microarrays-urile de ADN pot fi utilizate pentru a detecta ADN (ca în hibridizarea genomică comparativă ) sau pentru a detecta ARN (cel mai frecvent sub formă de ADNc după transcriere inversă ) care poate fi sau nu tradus în proteine. Procesul de măsurare a expresiei genelor prin ADNc se numește analiza expresiei sau profilarea expresiei .

Aplicațiile includ:

Aplicație sau tehnologie Rezumat
Profilarea expresiei genice Într-un experiment de profilare a expresiei genei sau mARN, nivelurile de expresie a mii de gene sunt monitorizate simultan pentru a studia efectele anumitor tratamente, boli și etape de dezvoltare asupra expresiei genelor. De exemplu, profilarea expresiei genei pe bază de microarrays poate fi utilizată pentru a identifica gene a căror expresie este modificată ca răspuns la agenți patogeni sau alte organisme prin compararea expresiei genice în infectate cu cea din celule sau țesuturi neinfectate.
Hibridare genomică comparativă Evaluarea conținutului de genom în diferite celule sau organisme strâns legate, așa cum a fost descris inițial de Patrick Brown , Jonathan Pollack, Ash Alizadeh și colegii de la Stanford .
GeneID Micromatricele mici pentru a verifica ID-urile organismelor din alimente și furaje (cum ar fi OMG-ul [1] ), micoplasmele din cultura celulară sau agenții patogeni pentru detectarea bolilor, combinând în principal PCR și tehnologia microarray.
Imunoprecipitarea cromatinei pe Chip Secvențele de ADN legate de o anumită proteină pot fi izolate prin imunoprecipitarea acelei proteine ​​( ChIP ), aceste fragmente pot fi apoi hibridizate la un microarray (cum ar fi o matrice de plăci ) permițând determinarea ocupării site-ului de legare a proteinelor pe tot genomul. Exemple de proteine ​​în imunoprecipitat sunt modificări ale histonelor ( H3K27me3 , H3K4me2, H3K9me3 etc.), proteine ​​din grupa policomb (PRC2: Suz12, PRC1: YY1) și proteine ​​din grupul trithorax (Ash1) pentru a studia peisajul epigenetic sau ARN polimeraza II pentru a studia peisajul de transcriere .
DamID În mod similar cu ChIP , regiunile genomice legate de o proteină de interes pot fi izolate și utilizate pentru a testa o microarray pentru a determina ocuparea sitului de legare. Spre deosebire de ChIP, DamID nu necesită anticorpi, ci folosește metilarea adeninei în apropierea siturilor de legare a proteinei pentru a amplifica selectiv acele regiuni, introduse prin exprimarea unor cantități minuscule de proteine ​​de interes fuzionate cu ADen bacterian adenin metiltransferază .
Detectarea SNP Identificarea polimorfismului nucleotidic unic între alele în cadrul sau între populații. Mai multe aplicații ale microarrays-urilor folosesc detectarea SNP, inclusiv genotiparea , analiza criminalistică , măsurarea predispoziției la boală, identificarea candidaților la medicamente, evaluarea mutațiilor germinale la indivizi sau mutațiile somatice în cancer, evaluarea pierderii heterozigoților sau analiza legăturii genetice .
Detectarea alternativă a îmbinării Un proiect de matrice de joncțiune exon folosește sonde specifice siturilor de îmbinare așteptate sau potențiale ale exonilor preziți pentru o genă. Este de densitate intermediară, sau acoperire, pentru o matrice tipică de expresie genică (cu 1-3 sonde per genă) și o matrice de placare genomică (cu sute sau mii de sonde pe genă). Este folosit pentru a testa expresia formelor alternative de îmbinare a unei gene. Tablourile Exon au un design diferit, utilizând sonde concepute pentru a detecta fiecare exon individual pentru gene cunoscute sau prezise și pot fi utilizate pentru detectarea diferitelor izoforme de îmbinare.
Microarray de gene de fuziune Un microarray de gene Fusion poate detecta transcripții de fuziune, de exemplu de la specimene de cancer. Principiul din spatele acestui fapt se bazează pe microarrays-urile alternative de îmbinare . Strategia de proiectare oligo permite măsurători combinate ale joncțiunilor transcripte himerice cu măsurători exonice ale partenerilor de fuziune individuali.
Matrice de gresie Tablourile de placare a genomului constau din sonde suprapuse concepute să reprezinte dens o regiune genomică de interes, uneori la fel de mare ca un întreg cromozom uman. Scopul este de a detecta empiric expresia transcrierilor sau a formelor combinate alternativ, care poate nu au fost cunoscute sau prezise anterior.
Micro matricele de ADN B dublu catenar Micro-matricele de ADN B cu catenă dreaptă pot fi utilizate pentru a caracteriza medicamente noi și substanțe biologice care pot fi utilizate pentru a lega regiuni specifice de ADN dublu catenar imobilizat, intact. Această abordare poate fi utilizată pentru a inhiba expresia genelor. De asemenea, permit caracterizarea structurii lor în diferite condiții de mediu.
Micro matricele de ADN Z cu catenă dublă Micro-matricele Z-ADN cu catenă dublă stânga pot fi utilizate pentru a identifica secvențe scurte ale structurii alternative a ADN-ului Z situate în întinderi mai lungi de gene ale ADN-ului B dreptaci (de exemplu, îmbunătățirea transcripțională, recombinarea, editarea ARN). Microarrays-urile permit, de asemenea, caracterizarea structurii lor în diferite condiții de mediu.
Microarrays ADN multi-catenar (microarrays ADN triplex și microarrays ADN quadruplex) Micro-matricele de ADN și ARN multi-catenar pot fi utilizate pentru a identifica medicamente noi care se leagă de aceste secvențe de acid nucleic multi-catenar. Această abordare poate fi utilizată pentru a descoperi noi medicamente și produse biologice care au capacitatea de a inhiba expresia genelor. Aceste microarrays permit, de asemenea, caracterizarea structurii lor în diferite condiții de mediu.

Tablourile specializate adaptate la anumite culturi devin din ce în ce mai populare în aplicațiile de reproducere moleculară . În viitor, acestea ar putea fi folosite pentru screeningul răsadurilor în stadii incipiente pentru a reduce numărul răsadurilor inutile încercate în operațiunile de reproducere.

Fabricare

Microarrays-urile pot fi fabricate în moduri diferite, în funcție de numărul de sonde examinate, costuri, cerințe de personalizare și tipul de întrebare științifică pusă. Tablourile de la furnizorii comerciali pot avea doar 10 sonde sau până la 5 milioane sau mai multe sonde la scară micrometrică.

Variate vs. matrici sintetizate in situ

Un microarray de ADN tipărit de un robot la Universitatea din Delaware

Microarrays-urile pot fi fabricate folosind o varietate de tehnologii, inclusiv imprimarea cu știfturi cu vârfuri fine pe diapozitive de sticlă, fotolitografia utilizând măști prefabricate, fotolitografia utilizând dispozitive dinamice cu microspeți, imprimarea cu jet de cerneală sau electrochimia pe matrice de microelectrozi.

În microarrays-urile reperate , sondele sunt oligonucleotide , ADNc sau fragmente mici de produse PCR care corespund ARNm-urilor . Sondele sunt sintetizate înainte de depunerea pe suprafața matricei și sunt apoi „reperate” pe sticlă. O abordare obișnuită utilizează o serie de ace sau ace fine controlate de un braț robot care este scufundat în godeuri care conțin sonde ADN și apoi depunerea fiecărei sonde în locații desemnate pe suprafața matricei. „Grila” rezultată a sondelor reprezintă profilurile de acid nucleic ale sondelor preparate și este gata să primească „ținte” complementare de ADNc sau ARNc derivate din probe experimentale sau clinice. Această tehnică este utilizată de cercetătorii din întreaga lume pentru a produce microarrays tipărite „in-house” din propriile lor laboratoare. Aceste tablouri pot fi personalizate cu ușurință pentru fiecare experiment, deoarece cercetătorii pot alege sondele și locațiile de imprimare pe tablouri, pot sintetiza sondele în propriul lor laborator (sau în instalația de colaborare) și pot localiza tablourile. Aceștia pot genera apoi propriile probe etichetate pentru hibridizare, hibridizează probele la matrice și, în cele din urmă, scanează matricele cu propriul echipament. Aceasta oferă un microarray relativ scăzut, care poate fi personalizat pentru fiecare studiu și evită costurile de achiziționare a unor matricele comerciale adesea mai scumpe, care pot reprezenta un număr mare de gene care nu prezintă interes pentru investigator. Există publicații care indică că microarrays-urile localizate pot să nu ofere același nivel de sensibilitate în comparație cu matricele oligonucleotidice comerciale, posibil din cauza dimensiunilor mici ale lotului și a eficienței reduse a imprimării în comparație cu producătorii industriali de matrice oligo.

În microarrays-urile oligonucleotidice , sondele sunt secvențe scurte concepute pentru a se potrivi cu părți din secvența cadrelor de citire deschise cunoscute sau prezise . Deși sondele oligonucleotidice sunt adesea folosite în micro-matricele „punctate”, termenul „matrice oligonucleotidică” se referă cel mai adesea la o tehnică specifică de fabricație. Tablourile de oligonucleotide sunt produse prin imprimarea unor secvențe scurte de oligonucleotide concepute pentru a reprezenta o singură genă sau o familie de variante de îmbinare genică prin sintetizarea acestei secvențe direct pe suprafața matricei în loc de depunerea secvențelor intacte. Secvențele pot fi mai lungi (sonde 60-mer, cum ar fi proiectul Agilent ) sau mai scurte (sonde 25-mer produse de Affymetrix ), în funcție de scopul dorit; sondele mai lungi sunt mai specifice genelor țintă individuale, sondele mai scurte pot fi observate cu densitate mai mare în întreaga matrice și sunt mai ieftine de fabricat. O tehnică utilizată pentru a produce matrice de oligonucleotide include sinteza fotolitografică (Affymetrix) pe un substrat de silice în care agenții de mascare luminoși și sensibili la lumină sunt folosiți pentru a „construi” o secvență, câte un nucleotid la un moment dat în întreaga matrice. Fiecare sondă aplicabilă este „demascată” selectiv înainte de scăldarea matricei într-o soluție dintr-o singură nucleotidă, apoi are loc o reacție de mascare și următorul set de sonde sunt demascate în pregătirea unei expuneri diferite la nucleotide. După multe repetări, secvențele fiecărei sonde devin pe deplin construite. Mai recent, Maskless Array Synthesis de la NimbleGen Systems a combinat flexibilitatea cu un număr mare de sonde.

Detectare cu două canale vs. un canal

Diagrama experimentului tipic de microarray cu două culori

Microarraysurile în două culori sau microarraysurile cu două canale sunt de obicei hibridizate cu ADNc preparat din două probe care urmează să fie comparate (de exemplu, țesut bolnav versus țesut sănătos) și care sunt marcate cu doi fluorofori diferiți . Coloranții fluorescenți utilizați în mod obișnuit pentru etichetarea ADNc includ Cy 3, care are o lungime de undă de emisie de fluorescență de 570 nm (corespunzătoare părții verzi a spectrului luminos) și Cy 5 cu o lungime de undă de emisie de fluorescență de 670 nm (corespunzătoare părții roșii a spectrul luminii). Cele două probe de ADNc marcate cu Cy sunt amestecate și hibridizate la un singur microarray care este apoi scanat într-un scaner microarray pentru a vizualiza fluorescența celor doi fluorofori după excitație cu un fascicul laser cu o lungime de undă definită. Intensitățile relative ale fiecărui fluorofor pot fi apoi utilizate în analiza bazată pe raport pentru a identifica gene reglate în sus și în jos.

Microarrays-urile oligonucleotidice poartă deseori sonde de control concepute să se hibridizeze cu spike-in-uri de ARN . Gradul de hibridizare între spike-ins și sondele de control este utilizat pentru a normaliza măsurătorile de hibridizare pentru sondele țintă. Deși nivelurile absolute de expresie genică pot fi determinate în matricea cu două culori în cazuri rare, diferențele relative în expresie între diferite pete dintr-o probă și între probe este metoda preferată de analiză a datelor pentru sistemul cu două culori. Exemple de furnizori pentru astfel de microarrays includ Agilent cu platforma lor Dual-Mode, Eppendorf cu platforma DualChip pentru etichetare colorimetrică Silverquant și TeleChem International cu Arrayit .

În microarrays cu un singur canal sau microarrays cu o singură culoare , matricele furnizează date de intensitate pentru fiecare sondă sau set de sondă care indică un nivel relativ de hibridizare cu ținta marcată. Cu toate acestea, ele nu indică cu adevărat nivelurile de abundență ale unei gene, ci abundența relativă în comparație cu alte probe sau condiții atunci când sunt procesate în același experiment. Fiecare moleculă de ARN întâlnește un prejudiciu de protocol și de lot specific în timpul fazelor de amplificare, marcare și hibridizare a experimentului, făcând comparații între gene pentru același microarray neinformativ. Compararea a două condiții pentru aceeași genă necesită două hibridizări separate cu un singur colorant. Mai multe sisteme populare cu un singur canal sunt Affymetrix „Gene Chip”, Illumina „Bead Chip”, Agilent single-channel array, array-urile Applied Microarrays „CodeLink” și Eppendorf „DualChip & Silverquant”. Un punct forte al sistemului cu un singur colorant constă în faptul că un eșantion aberant nu poate afecta datele brute derivate din alte eșantioane, deoarece fiecare cip matrice este expus unui singur eșantion (spre deosebire de un sistem cu două culori în care un singur -eșantionul de calitate poate afecta drastic precizia generală a datelor, chiar dacă celălalt eșantion a fost de înaltă calitate). Un alt avantaj este că datele sunt mai ușor comparate cu matricile din diferite experimente, atâta timp cât au fost luate în considerare efectele de serie.

Un microarray de canal poate fi singura alegere în anumite situații. Să presupunem că eșantioanele trebuie comparate: atunci numărul de experimente necesare folosind cele două matrice de canale devine rapid imposibil de realizat, cu excepția cazului în care o probă este utilizată ca referință.

numărul de probe microarray cu un canal microarray pe două canale

microarray pe două canale (cu referință)

1 1 1 1
2 2 1 1
3 3 3 2
4 4 6 3

Un protocol tipic

Exemple de niveluri de aplicare a microarrays-urilor. În cadrul organismelor, genele sunt transcrise și îmbinate pentru a produce transcripții ARNm mature (roșu). ARNm este extras din organism și transcriptaza inversă este utilizată pentru a copia ARNm în ds-ADNc stabil (albastru). În microarrays, ADN-ul ds este fragmentat și marcat fluorescent (portocaliu). Fragmentele marcate se leagă de o matrice ordonată de oligonucleotide complementare, iar măsurarea intensității fluorescente din matrice indică abundența unui set predeterminat de secvențe. Aceste secvențe sunt de obicei alese în mod specific pentru a raporta genele de interes din genomul organismului.

Acesta este un exemplu de experiment de microarray de ADN care include detalii pentru un anumit caz pentru a explica mai bine experimentele de microarray de ADN, în timp ce enumeră modificări pentru ARN sau alte experimente alternative.

  1. Cele două eșantioane care trebuie comparate (comparație pereche) sunt cultivate / achiziționate. În acest exemplu, proba tratată ( caz ) și proba netratată ( martor ).
  2. Acidul nucleic de interes este purificat: aceasta poate fi ARN pentru profilare expresie , ADN - ul pentru hibridizare comparative sau ADN / ARN legat de o anumită proteină care este imunoprecipitată ( ChIP-on-chip ) pentru epigenetice studii sau de reglementare. În acest exemplu, ARN-ul total este izolat (atât nuclear, cât și citoplasmatic ) prin extracția tiocianat-fenol-cloroform de Guanidinium (de exemplu, Trizol ), care izolează majoritatea ARN-ului (în timp ce metodele de coloană au o tăiere de 200 de nucleotide) și, dacă sunt efectuate corect, au o puritate mai bună.
  3. ARN-ul purificat este analizat pentru calitate (prin electroforeză capilară ) și cantitate (de exemplu, utilizând un spectrometru NanoDrop sau NanoPhotometer ). Dacă materialul este de o calitate acceptabilă și este prezentă o cantitate suficientă (de exemplu,> 1 μg , deși cantitatea necesară variază în funcție de platforma microarray), experimentul poate continua.
  4. Produsul etichetat este generat prin transcriere inversă și urmat de o amplificare PCR opțională . ARN-ul este transcris invers fie cu primeri polyT (care amplifică doar ARNm ), fie cu primeri aleatori (care amplifică tot ARN, dintre care majoritatea este ARNr ). microarrays-urile miARN leagă o oligonucleotidă la ARN-ul mic purificat (izolat cu un fracționator), care este apoi transcris invers și amplificat.
    • Eticheta este adăugată fie în timpul etapei de transcriere inversă, fie după amplificare, dacă este efectuată. Sens etichetare este dependentă de microarray; de exemplu, dacă eticheta este adăugată cu amestecul RT, ADNc este antisens și sonda microarray este logică, cu excepția cazurilor de control negativ.
    • Eticheta este de obicei fluorescentă ; doar o singură mașină folosește etichete radio .
    • Etichetarea poate fi directă (neutilizată) sau indirectă (necesită o etapă de cuplare). Pentru tablourile cu două canale, etapa de cuplare are loc înainte de hibridizare, utilizând trifosfat de aminoalil uridină (aminoalil-UTP sau aaUTP) și coloranți amino-reactivi NHS (cum ar fi coloranții cianină ); pentru matricele cu un singur canal, etapa de cuplare are loc după hibridizare, utilizând biotină și streptavidină marcată . Nucleotidele modificate (de obicei într-un raport de 1 aaUTP: 4 TTP ( timidin trifosfat )) sunt adăugate enzimatic într-un raport scăzut la nucleotidele normale, rezultând de obicei 1 la fiecare 60 de baze. ADN-ul aa este apoi purificat cu o coloană (folosind o soluție tampon de fosfat, deoarece Tris conține grupări amină). Gruparea aminoalil este o grupare amină pe un linker lung atașat la nucleobază, care reacționează cu un colorant reactiv.
      • O formă de replică cunoscută sub numele de flip colorant poate fi realizată pentru a controla artefactele coloranților în experimente cu două canale; pentru un flip colorant, se folosește un al doilea diapozitiv, cu etichetele schimbate (proba care a fost etichetată cu Cy3 în primul diapozitiv este etichetată cu Cy5 și invers). În acest exemplu, aminoallyl -UTP este prezent în amestec reverstranscrise.
  5. Probele marcate sunt apoi amestecate cu o soluție de hibridizare proprietară care poate consta din SDS , SSC , sulfat de dextran , un agent de blocare (cum ar fi ADN Cot-1 , ADN de spermă de somon, ADN de timus de vițel, PolyA sau PolyT), soluția Denhardt , sau formamina .
  6. Amestecul este denaturat și adăugat la orificiile de sticlă ale microarrayului. Găurile sunt sigilate și microarray-ul hibridizat, fie într-un cuptor hyb, unde microarray-ul este amestecat prin rotație, fie într-un mixer, unde microarray-ul este amestecat prin presiune alternativă la orificii.
  7. După o hibridizare peste noapte, toate legările nespecifice sunt spălate (SDS și SSC).
  8. Microarray-ul este uscat și scanat de o mașină care folosește un laser pentru a excita vopseaua și măsoară nivelurile de emisie cu un detector.
  9. Imaginea este grilată cu un șablon și intensitățile fiecărei caracteristici (compuse din mai mulți pixeli) sunt cuantificate.
  10. Datele brute sunt normalizate; cea mai simplă metodă de normalizare este de a scădea intensitatea și scala de fundal astfel încât intensitățile totale ale caracteristicilor celor două canale să fie egale sau de a utiliza intensitatea unei gene de referință pentru a calcula valoarea t pentru toate intensitățile. Metodele mai sofisticate includ raportul z , regresia loess și lowess și RMA (analiză robustă multichip) pentru cipurile Affymetrix (un singur canal, cip de siliciu, oligonucleotide scurte sintetizate in situ ).

Microarrays și bioinformatică

Valorile expresiei genelor din experimentele de microarray pot fi reprezentate ca hărți de căldură pentru a vizualiza rezultatul analizei datelor.

Apariția experimentelor de microarray ieftine a creat mai multe provocări specifice bioinformatică: multiplele niveluri de replicare în proiectarea experimentală ( Experimental design ); numărul de platforme și grupuri independente și formatul de date ( standardizare ); tratamentul statistic al datelor ( analiza datelor ); maparea fiecărei probe la transcrierea ARNm pe care o măsoară ( Adnotare ); volumul mare de date și capacitatea de a le partaja (stocarea datelor ).

Proiectare experimentală

Datorită complexității biologice a expresiei genetice, considerațiile de proiectare experimentală, care sunt discutate în articolul de profilare a expresiei, sunt de o importanță critică dacă se vor trage concluzii valabile din punct de vedere statistic și biologic din date.

Există trei elemente principale de luat în considerare atunci când proiectăm un experiment de microarray. În primul rând, replicarea probelor biologice este esențială pentru a trage concluzii din experiment. În al doilea rând, replicile tehnice (două probe de ARN obținute din fiecare unitate experimentală) ajută la asigurarea preciziei și permit testarea diferențelor în cadrul grupurilor de tratament. Replicatele biologice includ extracții ARN independente, iar replicatele tehnice pot fi două alicote ale aceleiași extracții. În al treilea rând, petele fiecărei clone ADNc sau oligonucleotide sunt prezente ca replicate (cel puțin duplicate) pe lamela microarray, pentru a oferi o măsură de precizie tehnică în fiecare hibridizare. Este esențial să se discute informații despre pregătirea și manipularea eșantionului, pentru a ajuta la identificarea unităților independente din experiment și pentru a evita estimările umflate ale semnificației statistice .

Standardizare

Datele microarray sunt dificil de schimbat din cauza lipsei de standardizare în fabricarea platformei, a protocoalelor de testare și a metodelor de analiză. Aceasta prezintă o problemă de interoperabilitate în bioinformatică . Diverse iarbă-rădăcini open-source proiecte încearcă să faciliteze schimbul și analiza datelor obținute cu cipuri nebrevetate:

De exemplu, lista de verificare „Informații minime despre un experiment de microarray” ( MIAME ) ajută la definirea nivelului de detaliu care ar trebui să existe și care este adoptat de multe reviste ca o cerință pentru depunerea lucrărilor care încorporează rezultatele microarray-ului. Dar MIAME nu descrie formatul informațiilor, așa că în timp ce multe formate pot accepta cerințele MIAME, începând din 2007, niciun format nu permite verificarea conformității semantice complete. „Proiectul de control al calității MicroArray (MAQC)” este realizat de Administrația SUA pentru Alimente și Medicamente (FDA) pentru a dezvolta standarde și metrici de control al calității care vor permite în cele din urmă utilizarea datelor MicroArray în descoperirea medicamentelor, practica clinică și luarea deciziilor de reglementare. . Societatea MGED a elaborat standarde pentru reprezentarea rezultatelor experimentului expresia genelor și adnotări relevante.

Analiza datelor

Omul de știință al Centrului Național pentru Cercetări Toxicologice analizează datele despre microarrays

Seturile de date Microarray sunt de obicei foarte mari, iar precizia analitică este influențată de o serie de variabile. Provocările statistice includ luarea în considerare a efectelor zgomotului de fond și normalizarea adecvată a datelor. Metodele de normalizare pot fi adecvate unor platforme specifice și, în cazul platformelor comerciale, analiza poate fi proprietară. Algoritmii care afectează analiza statistică includ:

  • Analiza imaginii: grilaj, recunoașterea la fața locului a imaginii scanate (algoritmul de segmentare), eliminarea sau marcarea caracteristicilor de calitate slabă și de intensitate redusă (denumită semnalizare ).
  • Prelucrarea datelor: scăderea fundalului (bazată pe fondul global sau local), determinarea intensităților punctului și a rapoartelor de intensitate, vizualizarea datelor (de exemplu, a se vedea graficul MA ) și transformarea log a rapoartelor, normalizarea globală sau locală a rapoartelor de intensitate și segmentarea în diferite regiuni ale numărului de copii folosind algoritmi de detectare a pașilor .
  • Analiza descoperirii clasei: Această abordare analitică, numită uneori clasificare nesupravegheată sau descoperire de cunoștințe, încearcă să identifice dacă microarrays (obiecte, pacienți, șoareci etc.) sau gene se grupează împreună în grupuri. Identificarea grupurilor naturale existente de obiecte (microarrays sau gene) care se aglomerează poate permite descoperirea de noi grupuri care altfel nu se știa că există anterior. În timpul analizei descoperirii cunoștințelor, diferite tehnici de clasificare nesupravegheate pot fi folosite cu datele microarray de ADN pentru a identifica noi grupuri (clase) de matrice. Acest tip de abordare nu este bazat pe ipoteze, ci mai degrabă se bazează pe recunoașterea tiparelor iterative sau pe metode statistice de învățare pentru a găsi un număr „optim” de clustere în date. Exemple de metode de analiză nesupravegheate includ hărți de auto-organizare, gaze neuronale, analize de cluster k-mijloace, analize ierarhice de cluster, clustering bazat pe procesarea genomică a semnalului și analiză de cluster bazată pe modele. Pentru unele dintre aceste metode, utilizatorul trebuie să definească și o măsură a distanței între perechile de obiecte. Deși coeficientul de corelație Pearson este de obicei utilizat, în literatura de specialitate au fost propuse și evaluate alte câteva măsuri. Datele de intrare utilizate în analizele de descoperire de clasă se bazează în mod obișnuit pe liste de gene cu o informativitate ridicată (zgomot redus) bazate pe valori scăzute ale coeficientului de variație sau valori ridicate ale entropiei Shannon etc. Determinarea numărului cel mai probabil sau optim de clusterele obținute dintr-o analiză nesupravegheată se numește validitate cluster. Unele valori utilizate în mod obișnuit pentru validitatea clusterului sunt indicele siluetei, indicele Davies-Bouldin, indicele Dunn sau statistica lui Hubert .
  • Analiza predicției de clasă: Această abordare, denumită clasificare supravegheată, stabilește baza pentru dezvoltarea unui model predictiv în care pot fi introduse viitoare obiecte de test necunoscute pentru a prezice apartenența la clasă cea mai probabilă a obiectelor de testare. Analiza supravegheată pentru predicția de clasă implică utilizarea unor tehnici cum ar fi regresia liniară, cel mai apropiat vecin k, cuantizarea vectorului de învățare, analiza arborelui decizional, pădurile aleatorii, Bayes naiv, regresia logistică, regresia nucleului, rețelele neuronale artificiale, mașinile vectoriale de sprijin, amestecul de experți , și gaz neural supravegheat. În plus, sunt utilizate diverse metode metaheuristice, cum ar fi algoritmi genetici , autoadaptarea matricei de covarianță, optimizarea roiului de particule și optimizarea coloniei de furnici . Datele de intrare pentru predicția de clasă se bazează de obicei pe liste filtrate de gene care sunt predictive pentru clasă, determinate folosind teste de ipoteză clasice (secțiunea următoare), indicele de diversitate Gini sau câștig de informații (entropie).
  • Analiza statistică bazată pe ipoteză: Identificarea modificărilor semnificative statistic în expresia genelor sunt identificate în mod obișnuit folosind testul t , ANOVA , metoda Bayesiană Metodele de testare Mann-Whitney adaptate seturilor de date microarray, care iau în considerare comparații multiple sau analiza cluster . Aceste metode evaluează puterea statistică pe baza variației prezente în date și a numărului de replici experimentale și pot ajuta la minimizarea erorilor de tip I și de tip II în analize.
  • Reducere dimensională: Analiștii reduc adesea numărul de dimensiuni (gene) înainte de analiza datelor. Aceasta poate implica abordări liniare, cum ar fi analiza componentelor principale (PCA), sau învățarea non-liniară multiplă (învățare metrică la distanță) utilizând PCA kernel, hărți de difuzie, mape proprii laplaciene, încorporare liniară locală, proiecții de conservare locală și mapare Sammon.
  • Metode bazate pe rețea: metode statistice care iau în considerare structura subiacentă a rețelelor genetice, reprezentând fie interacțiuni asociative sau cauzale, fie dependențe între produsele genetice. Analiza rețelei de coexpresie genică ponderată este utilizată pe scară largă pentru identificarea modulelor de coexpresie și a genelor hub intramodulare. Modulele pot corespunde tipurilor de celule sau căilor. Huburile intramodulare foarte conectate reprezintă cel mai bine modulele lor respective.

Datele microarray pot necesita prelucrări suplimentare care vizează reducerea dimensionalității datelor pentru a ajuta la înțelegere și la o analiză mai concentrată. Alte metode permit analiza datelor constând dintr-un număr redus de replici biologice sau tehnice ; de exemplu, testul Local Pooled Error (LPE) testează rezerve standard ale genelor cu niveluri de expresie similare într-un efort de a compensa replicarea insuficientă.

Adnotare

Relația dintre o sondă și ARNm pe care se așteaptă să o detecteze nu este banală. Unii ARNm pot hibridiza încrucișat sondele din matrice care ar trebui să detecteze un alt ARNm. În plus, mARN-urile pot prezenta o prejudecată de amplificare care este specifică secvenței sau moleculei. În al treilea rând, sondele care sunt proiectate pentru a detecta mARN-ul unei anumite gene pot fi bazate pe informații genomice EST care sunt incorect asociate cu acea genă.

Depozitarea datelor

S-a găsit că datele microarray sunt mai utile în comparație cu alte seturi de date similare. Volumul mare de date, formatele specializate (cum ar fi MIAME ) și eforturile de curățare asociate seturilor de date necesită baze de date specializate pentru stocarea datelor. O serie de soluții open-source de stocare a datelor, cum ar fi InterMine și BioMart , au fost create pentru scopul specific de a integra diverse seturi de date biologice și, de asemenea, pentru a sprijini analiza.

Tehnologii alternative

Progresele în secvențierea masivă paralelă au condus la dezvoltarea tehnologiei RNA-Seq , care permite o abordare a pistolului transcriptom întreg pentru a caracteriza și cuantifica expresia genelor. Spre deosebire de microarrays, care au nevoie de un genom de referință și transcriptom pentru a fi disponibile înainte ca microarray-ul în sine să poată fi proiectat, ARN-Seq poate fi utilizat și pentru noi organisme model al căror genom nu a fost încă secvențiat.

Glosar

  • O matrice sau o diapozitivă este o colecție de caracteristici dispuse spațial într-o grilă bidimensională, dispuse în coloane și rânduri.
  • Bloc sau subarray : un grup de pete, realizate de obicei într-o rundă tipărită; mai multe subarrays / blocuri formează o matrice.
  • Caz / control : o paradigmă de proiectare experimentală adecvată în special sistemului matricial în două culori, în care o condiție aleasă ca control (cum ar fi țesutul sănătos sau starea) este comparată cu o stare modificată (cum ar fi un țesut sau o stare bolnavă).
  • Canal :ieșirea de fluorescență înregistrată în scaner pentru un fluorofor individualși poate fi chiar ultravioletă.
  • Flip de colorant sau swap de colorant sau inversarea fluorului : etichetarea reciprocă a țintelor ADN cu cei doi coloranți pentru a explica tendința colorantului în experimente.
  • Scanner : un instrument utilizat pentru a detecta și cuantifica intensitatea fluorescenței petelor pe un diapozitiv microarray, prin excitarea selectivă a fluoroforilor cu laser și măsurarea fluorescenței cu un sistem de fotomultiplicare cu filtru (optică) .
  • Spot sau caracteristică : o zonă mică pe o lamă care conține picomoli de probe de ADN specifice.
  • Pentru alți termeni relevanți, a se vedea:

Vezi si

Referințe

linkuri externe