Teoria coalescenței - Coalescent theory

Teoria coalescenței este un model al modului în care alelele eșantionate dintr-o populație ar fi putut proveni dintr-un strămoș comun . În cel mai simplu caz, teoria coalescentă nu presupune nici o recombinare , nici o selecție naturală și nici un flux de gene sau structura populației , ceea ce înseamnă că fiecare variantă este la fel de probabil să fi fost transmisă de la o generație la alta. Modelul arată înapoi în timp, fuzionând alelele într-o singură copie ancestrală conform unui proces aleatoriu în evenimente de coalescență. Conform acestui model, timpul așteptat între evenimentele de coalescență succesive crește aproape exponențial înapoi în timp (cu o variație largă ). Varianța în model provine atât din trecerea aleatorie a alelelor de la o generație la alta, cât și din apariția aleatorie a mutațiilor în aceste alele.

Teoria matematică a coalescenței a fost dezvoltată independent de mai multe grupuri la începutul anilor 1980 ca o extensie naturală a teoriei și modelelor genetice ale populației clasice , dar poate fi atribuită în primul rând lui John Kingman . Progresele teoriei coalescente includ recombinarea, selecția, generațiile suprapuse și practic orice model evolutiv sau demografic complex arbitrar în analiza genetică a populației.

Modelul poate fi utilizat pentru a produce multe genealogii teoretice și apoi compara datele observate cu aceste simulări pentru a testa ipotezele despre istoria demografică a unei populații. Teoria coalescenței poate fi utilizată pentru a face inferențe despre parametrii genetici ai populației, cum ar fi migrația, dimensiunea populației și recombinarea.

Teorie

Timp pentru coalescență

Luați în considerare un locus genetic unic prelevat de la doi indivizi haploizi dintr-o populație. Strămoșii acestui eșantion sunt urmăriți înapoi în timp până la punctul în care aceste două linii se unesc în cel mai recent strămoș comun (MRCA). Teoria coalescentă încearcă să estimeze așteptarea acestei perioade de timp și varianța acesteia.

Probabilitatea ca două linii să se unească în generația imediat precedentă este probabilitatea ca acestea să împartă o secvență ADN parentală . Într-o populație cu o dimensiune efectivă constantă a populației cu 2 N e copii ale fiecărui locus, există 2 N e „părinți potențiali” în generația anterioară. Sub un model aleatoriu de împerechere , probabilitatea ca două alele să provină din aceeași copie parentală este astfel 1 / (2 N e ) și, în mod corespunzător, probabilitatea ca acestea să nu se unească este 1 - 1 / (2 N e ).

La fiecare generație precedentă succesivă, probabilitatea de coalescență este distribuită geometric - adică este probabilitatea de non- coalescență la  generațiile precedente t - 1 înmulțite cu probabilitatea de coalescență la generația de interes:

Pentru valori suficient de mari ale lui N e , această distribuție este bine aproximată de distribuția exponențială definită continuu

Acest lucru este convenabil din punct de vedere matematic, deoarece distribuția exponențială standard are atât valoarea așteptată , cât și abaterea standard egală cu 2 N e . Prin urmare, deși timpul așteptat până la coalescență este de 2 N e , timpii de coalescență efectivi au o gamă largă de variații. Rețineți că timpul coalescent este numărul generațiilor anterioare în care a avut loc coalescența și nu timpul calendaristic, deși se poate face o estimare a acestuia din urmă multiplicând 2 N e cu timpul mediu dintre generații. Calculele de mai sus se aplică în mod egal unei populații diploide cu dimensiunea efectivă N e (cu alte cuvinte, pentru un segment de ADN nerecombinant, fiecare cromozom poate fi tratat ca echivalent cu un individ haploid independent ; în absența consangvinizării, cromozomii surori în un singur individ nu este mai strâns legat decât doi cromozomi eșantionați aleatoriu din populație). Unele elemente ADN haploide eficiente, cum ar fi ADN-ul mitocondrial , sunt transmise doar de un sex și, prin urmare, au un sfert din dimensiunea efectivă a populației echivalente diploide ( N e / 2)

Variație neutră

Teoria coalescenței poate fi, de asemenea, utilizată pentru a modela cantitatea de variație a secvențelor ADN așteptate de la deriva genetică și mutație. Această valoare este denumită medie heterozigoție , reprezentat . Heterozigoza medie se calculează ca probabilitatea apariției unei mutații la o generație dată împărțită la probabilitatea oricărui „eveniment” la acea generație (fie o mutație, fie o coalescență). Probabilitatea ca evenimentul este o mutație este probabilitatea unei mutații în oricare dintre cele două linii: . Astfel, heterozigoza medie este egală cu

Căci marea majoritate a perechilor de alele au cel puțin o diferență în secvența de nucleotide .

Reprezentare grafică

Coalescenții pot fi vizualizați folosind dendrograme care arată relația ramurilor populației între ele. Punctul în care două ramuri se întâlnesc indică un eveniment coalescent.

Aplicații

Cartografierea genelor bolii

Utilitatea teoriei coalescente în cartografierea bolilor câștigă încet mai multă apreciere; deși aplicarea teoriei este încă la început, există un număr de cercetători care dezvoltă activ algoritmi pentru analiza datelor genetice umane care utilizează teoria coalescentă.

Un număr considerabil de boli umane poate fi atribuit geneticii, de la simple boli mendeliene , cum ar fi anemia falciformă și fibroza chistică , la boli mai complicate, cum ar fi cancerele și bolile mentale. Acestea din urmă sunt boli poligenice, controlate de mai multe gene care pot apărea pe diferiți cromozomi, dar bolile care sunt precipitate de o singură anomalie sunt relativ simple de identificat și trasat - deși nu sunt atât de simple încât acest lucru a fost realizat pentru toate bolile. Este extrem de util să înțelegem aceste boli și procesele lor să știm unde sunt situate pe cromozomi și cum au fost moștenite de-a lungul generațiilor unei familii, așa cum se poate realiza prin analize coalescente.

Bolile genetice sunt transmise de la o generație la alta la fel ca alte gene. Deși orice genă poate fi amestecată de la un cromozom la altul în timpul recombinării omoloage , este puțin probabil ca o singură genă să fie mutată. Astfel, alte gene care sunt suficient de apropiate de gena bolii pentru a fi legate de aceasta pot fi utilizate pentru a o urmări.

Bolile poligenice au o bază genetică, deși nu respectă modelele de moștenire mendeliene, iar acestea pot avea o apariție relativ mare în populații și pot avea efecte grave asupra sănătății. Astfel de boli pot avea penetranță incompletă și tind să fie poligenice , complicând studiul lor. Aceste trăsături pot apărea din cauza multor mutații mici, care împreună au un efect sever și dăunător asupra sănătății individului.

Metodele de cartografiere a legăturilor, inclusiv teoria coalescenței, pot fi puse în funcțiune asupra acestor boli, deoarece folosesc pedigree familiale pentru a afla care markeri însoțesc o boală și cum este moștenită. Cel puțin, această metodă ajută la restrângerea porțiunii sau porțiunilor genomului pe care pot să apară mutațiile dăunătoare. Complicațiile acestor abordări includ efecte epistatice , natura poligenică a mutațiilor și factorii de mediu. Acestea fiind spuse, genele ale căror efecte sunt aditive prezintă un risc fix de a dezvolta boala și, atunci când există într-un genotip al bolii, pot fi utilizate pentru a prezice riscul și pentru a cartografia gena. Atât coalescența obișnuită, cât și coalescenta sfărâmată (ceea ce permite ca mai multe mutații să fi apărut la evenimentul fondator și că boala poate fi ocazională declanșată de factori de mediu) au fost puse la lucru în înțelegerea genelor bolii.

Studiile au fost efectuate corelând apariția bolii la gemenii frăți și identici, iar rezultatele acestor studii pot fi utilizate pentru a informa modelarea coalescentă. Deoarece gemenii identici își împărtășesc tot genomul, dar gemenii frăți își împărtășesc doar jumătate din genomul lor, diferența de corelație dintre gemenii identici și frăți poate fi utilizată pentru a stabili dacă o boală este ereditară și, dacă da, cât de puternic.

Distribuția genomică a heterozigozității

Harta polimorfismului mono-nucleotidic uman (SNP) a relevat variații regionale mari ale heterozigozității, mai mult decât poate fi explicat pe baza șansei aleatorii ( distribuite de Poisson ). În parte, aceste variații ar putea fi explicate pe baza metodelor de evaluare, a disponibilității secvențelor genomice și, probabil, a modelului genetic standard al populației coalescente. Influențele genetice ale populației ar putea avea o influență majoră asupra acestei variații: unii loci probabil ar avea strămoși comuni relativ recenți, alții ar putea avea genealogii mult mai vechi, astfel încât acumularea regională a SNP-urilor în timp ar putea fi destul de diferită. Densitatea locală a SNP-urilor de-a lungul cromozomilor pare să se grupeze în conformitate cu o varianță pentru a însemna legea puterii și pentru a respecta distribuția compusă Tweedie Poisson . În acest model, variațiile regionale din harta SNP ar fi explicate prin acumularea mai multor segmente genomice mici prin recombinare, unde numărul mediu de SNP pe segment ar fi distribuit gamma proporțional cu un timp distribuit gamma către cel mai recent strămoș comun pentru fiecare segment.

Istorie

Teoria coalescenței este o extensie naturală a conceptului de evoluție neutră a geneticii populației mai clasice și este o aproximare la modelul Fisher – Wright (sau Wright – Fisher) pentru populațiile mari. A fost descoperit independent de mai mulți cercetători în anii 1980.

Software

Există un corp mare de software atât pentru simularea seturilor de date în cadrul procesului coalescent, cât și pentru deducerea parametrilor precum dimensiunea populației și ratele de migrație din datele genetice.

  • BEAST - Pachet de inferență bayesiană prin MCMC cu o gamă largă de modele coalescente, inclusiv utilizarea secvențelor eșantionate temporar.
  • BPP - pachet software pentru deducerea filogeniei și a timpilor de divergență în rândul populațiilor în cadrul unui proces coalescent multispecial.
  • CoaSim - software pentru simularea datelor genetice sub modelul coalescent.
  • DIYABC - o abordare ușor de utilizat a ABC pentru deducerea istoriei populației folosind markeri moleculari.
  • DendroPy - o bibliotecă Python pentru calcul filogenetic, cu clase și metode de simulare a copacilor coerenți puri (neconstrânși), precum și a copacilor coercenți constrânși sub modelul coalescent multispecie (adică „copacii genetici din copacii speciilor”).
  • GeneRecon - software pentru cartarea la scară fină a cartografierii dezechilibrului de legătură a genelor bolii folosind teoria coalescentă bazată pe un cadru Bayesian MCMC .
  • software genetree pentru estimarea parametrilor geneticii populației folosind teoria și simularea coalescente ( pachetul R popgen). A se vedea, de asemenea, Oxford Mathematical Genetics and Bioinformatics Group
  • GENOM - simulare rapidă bazată pe coalescență a întregului genom
  • IBDSim - un pachet computerizat pentru simularea datelor genotipice sub izolare generală prin modele la distanță.
  • IMa - IMa implementează același model de izolare cu migrare, dar face acest lucru folosind o nouă metodă care oferă estimări ale densității probabilității articulare posterioare a parametrilor modelului. IMa permite, de asemenea, testarea raportului de probabilitate a jurnalului pentru modelele demografice imbricate. IMa se bazează pe o metodă descrisă în Hey și Nielsen (2007 PNAS 104: 2785-2790). IMa este mai rapid și mai bun decât IM (adică datorită oferirii accesului la funcția de densitate posterioară articulară) și poate fi utilizat pentru majoritatea (dar nu toate) situațiile și opțiunile pentru care IM poate fi utilizat.
  • Lamarc - software pentru estimarea ratelor de creștere a populației, migrație și recombinare.
  • Migrena - un program care implementează algoritmi coalescenți pentru o analiză de maximă probabilitate (folosind algoritmi de eșantionare a importanței ) a datelor genetice, cu accent pe populații structurate spațial.
  • Migrare - probabilitate maximă și deducere bayesiană a ratelor de migrație sub n- coalescent. Inferența este implementată utilizând MCMC
  • MaCS - Markovian Coalescent Simulator - simulează genealogiile spațial pe cromozomi ca proces Markovian. Similar cu algoritmul SMC al lui McVean și Cardin și acceptă toate scenariile demografice găsite în ms-ul lui Hudson.
  • ms & msHOT - programul original al lui Richard Hudson pentru generarea de probe sub modele neutre și o extensie care permite hotspoturile de recombinare .
  • msms - o versiune extinsă a ms care include măturări selective.
  • msprime - un simulator rapid și scalabil compatibil ms, care permite simulări demografice, producând fișiere de ieșire compacte pentru mii sau milioane de genomi.
  • Recodon și NetRecodon - software pentru a simula secvențe de codificare cu recombinare inter / intracodon, migrare, ritm de creștere și eșantionare longitudinală.
  • CoalEvol și SGWE - software pentru a simula secvențe de nucleotide, codare și aminoacizi sub coalescență cu date demografice, recombinare, structura populației cu migrație și eșantionare longitudinală.
  • SARG - structură Ancestral Recombination Graph de Magnus Nordborg
  • simcoal2 - software pentru a simula date genetice sub modelul coalescent cu demografie complexă și recombinare
  • TreesimJ - software de simulare directă care permite eșantionarea genealogiilor și a seturilor de date în cadrul diverselor modele selective și demografice.

Referințe

Surse

Articole

  • ^ Arenas, M. și Posada, D. (2014) Simulare a evoluției genomului pe ansamblu sub modele de substituție eterogene și istorii coalescente multispeciale complexe. Biologie moleculară și evoluție 31 (5) : 1295-1301
  • ^ Arenas, M. și Posada, D. (2007) Recodon: Simulare coalescentă a codificării secvențelor ADN cu recombinare, migrație și demografie. BMC Bioinformatics 8 : 458
  • ^ Arenas, M. și Posada, D. (2010) Simulare coalescentă a recombinării intracodonice. Genetica 184 (2) : 429–437
  • ^ Browning, SR (2006) Cartografiere asociere multilocus folosind lanțuri markov cu lungime variabilă. American Journal of Human Genetics 78 : 903-913
  • ^ Cornuet J.-M., Pudlo P., Veyssier J., Dehne-Garcia A., Gautier M., Leblois R., Marin J.-M., Estoup A. (2014) DIYABC v2.0: a software pentru a face inferențe aproximative de calcul bayesian despre istoricul populației folosind polimorfismul cu nucleotidă unică, secvența ADN și datele microsatelite. Bioinformatică 30” : 1187–1189
  • ^ Degnan, JH și LA Salter. 2005. Distribuțiile copacilor genici în cadrul procesului coalescent. Evoluția 59 (1): 24–37. pdf de pe coaltree.net/
  • ^ Donnelly, P., Tavaré, S. (1995) Coalescenți și structură genealogică sub neutralitate. Revista anuală a geneticii 29: 401-421
  • ^ Drummond A, Suchard MA, Xie D, Rambaut A (2012). „Filogenetica bayesiană cu BEAUti și BEAST 1.7” . Biologie moleculară și evoluție . 29 (8): 1969–1973. doi : 10.1093 / molbev / mss075 . PMC  3408070 . PMID  22367748 .
  • ^ Ewing, G. și Hermisson J. (2010), MSMS: un program de simulare coalescentă care include recombinare, structură demografică și selecție la un singur locus, Bioinformatics 26 : 15
  • ^ Hellenthal, G., Stephens M. (2006) msHOT: modificarea simulatorului ms al lui Hudson pentru a încorpora hotspoturi de încrucișare și conversie genică Bioinformatică AOP
  • ^ Hudson, Richard R. (1983a). „Testarea modelului de alelă neutră cu rată constantă cu date de secvență a proteinelor”. Evoluție . 37 (1): 203-17. doi : 10.2307 / 2408186 . ISSN  1558-5646 . JSTOR  2408186 . PMID  28568026 .
  • ^ Hudson RR (1983b) Proprietățile unui model de alelă neutră cu recombinare intragenică. Theoretical Population Biology 23: 183–201.
  • ^ Hudson RR (1991)Genealogii genetice și procesul coalescent. Oxford Surveys in Evolutionary Biology 7: 1–44
  • ^ Hudson RR (2002) Generarea probelor sub un model neutru Wright-Fisher. Bioinformatică 18 : 337–338
  • ^ Kendal WS (2003) Un model de dispersie exponențială pentru distribuția polimorfismelor cu nucleotide unice umane. Mol Biol Evol 20: 579-590
  • Hein, J., Schierup, M., Wiuf C. (2004) Gene Genealogies, Variation and Evolution: A Primer in Coalescent Theory Oxford University Press ISBN  978-0-19-852996-5
  • ^ Kaplan, NL, Darden, T., Hudson, RR (1988) Procesul coalescent în modele cu selecție. Genetica 120: 819-829
  • ^ Kingman, JFC (1982). „Despre genealogia populațiilor mari”. Journal of Applied Probability . 19 : 27–43. CiteSeerX  10.1.1.552.1429 . doi : 10.2307 / 3213548 . ISSN  0021-9002 . JSTOR  3213548 .
  • ^ Kingman, JFC (2000) Origins of the coalescent 1974–1982. Genetica 156 : 1461–1463
  • ^ Leblois R., Estoup A. și Rousset F. (2009) IBDSim: un program de computer pentru a simula date genotipice izolate de la distanță Molecular Ecology Resources 9 : 107–109
  • ^ Liang L., Zöllner S., Abecasis GR (2007) GENOME: un simulator de genom întreg bazat pe coalescență rapidă. Bioinformatică 23 : 1565–1567
  • ^ Mailund, T., Schierup, MH, Pedersen, CNS, Mechlenborg, PJM, Madsen, JN, Schauser, L. (2005) CoaSim: Un mediu flexibil pentru simularea datelor genetice sub modele coalescente BMC Bioinformatics 6 : 252
  • ^ Möhle, M., Sagitov, S. (2001) O clasificare a proceselor coalescente pentru modele de populație schimbabile haploideThe Annals of Probability 29: 1547-1562
  • ^ Morris, AP, Whittaker, JC, Balding, DJ (2002) Cartografiere la scară fină alocurilorbolii prin modelarea coalescentă spartă a genealogiilor American Journal of Human Genetics 70 : 686-707
  • ^ Neuhauser, C., Krone, SM (1997) Genealogia eșantioanelor în modele cu selecție Genetica 145 519-534
  • ^ Pitman, J. (1999) Coalescents with multiple collisionsThe Annals of Probability 27: 1870-1902
  • ^ Harding, Rosalind, M. 1998. Noi filogenii: o privire introductivă asupra coalescenței. pp. 15–22, în Harvey, PH, Brown, AJL, Smith, JM, Nee, S. Noi utilizări pentru noi filogenii. Oxford University Press (ISBN 0198549849)
  • ^ Rosenberg, NA, Nordborg, M. (2002) Arbori genealogici, teoria coalescentă și analiza polimorfismelor genetice. Nature Reviews Genetics 3: 380–390
  • ^ Sagitov, S. (1999) The coalescent general with asynchronous fusions of ancestral linesof Journal of Applied Probability 36: 1116-1125
  • ^ Schweinsberg, J. (2000) Coalescenți cu coliziuni multiple simultaneElectronic Journal of Probability 5: 1-50
  • ^ Slatkin, M. (2001) Simularea genealogiilor alelelor selectate în populații de dimensiuni variabileCercetare genetică 145: 519-534
  • ^ Tajima, F. (1983) Relația evolutivă a secvențelor ADN în populațiile finite. Genetica 105: 437–460
  • ^ Tavare S, Balding DJ, Griffiths RC & Donnelly P. 1997. Inferirea timpilor coalescenți din datele secvenței ADN. Genetica 145: 505-518.
  • ^ Grupul internațional de lucru SNP map. 2001. O hartă a variației genomului uman care conține 1,42 milioane de polimorfisme cu nucleotide unice. Natura 409: 928-933.
  • ^ Zöllner S. șiPritchard JK(2005) Coalescent-Based Association Mapping and Fine Mapping of Complex Trait Loci Genetics 169 : 1071-1092
  • ^ Rousset F. și Leblois R. (2007) Analizele de probabilitate și probabilitate aproximativă a structurii genetice într-un habitat liniar: performanță și robustețe pentru modelarea specificațiiloreronate Biologie moleculară și evoluție 24 : 2730-2745

Cărți

linkuri externe