Stocare de date digitale ADN - DNA digital data storage

Stocarea de date digitale ADN este procesul de codificare și decodificare a datelor binare către și de la șiruri sintetizate de ADN .

În timp ce ADN-ul ca mediu de stocare are un potențial enorm din cauza densității sale mari de stocare, utilizarea sa practică este în prezent sever limitată din cauza costului ridicat și a timpilor de citire și scriere foarte lente.

În iunie 2019, oamenii de știință au raportat că toate cele 16 GB de text din versiunea în limba engleză a Wikipedia au fost codificate în ADN sintetic .

Fără celule

În prezent, cea mai răspândită tehnologie de secvențiere a ADN-ului utilizată este una dezvoltată de Illumina, care implică imobilizarea ADN monocatenar pe un suport solid, amplificarea reacțiilor în lanț polimerază (PCR) a secvențelor și etichetarea bazelor ADN individuale cu baze complementare etichetate cu markeri fluorescenți (a se vedea secvențierea coloranților Illumina ). Modelul de fluorescență (o culoare diferită pentru fiecare dintre cele patru baze ADN) poate fi apoi capturat într-o imagine și procesat pentru a determina secvența ADN. O alternativă recent dezvoltată este tehnologia nanopore în care moleculele ADN sunt trecute printr-un por de scară nano sub controlul unei enzime cu clichet. Trecerea moleculelor ADN provoacă mici modificări ale curentului electric care pot fi măsurate. Principalul avantaj al tehnologiei nanopore este că poate fi citit în timp real. Cu toate acestea, precizia de citire a acestei tehnologii este în prezent insuficientă pentru stocarea datelor.

In vivo

Codul genetic din organismele vii poate fi cooptat pentru a stoca informații. Mai mult, biologia sintetică poate fi utilizată pentru a proiecta celule cu „înregistratoare moleculare” pentru a permite stocarea și recuperarea informațiilor stocate în materialul genetic al celulei. Editarea genei CRISPR poate fi utilizată și pentru a insera secvențe de ADN artificial în genomul celulei.

Istorie

Ideea stocării datelor digitale a ADN-ului datează din 1959, când fizicianul Richard P. Feynman, din „Există o mulțime de cameră la fund: o invitație de a intra într-un nou domeniu de fizică” a subliniat perspectivele generale pentru crearea obiectelor artificiale similar cu obiectele microcosmosului (inclusiv biologic) și având capacități similare sau chiar mai extinse. În 1964-65, Mihail Samoilovich Neiman , fizicianul sovietic, a publicat 3 articole despre microminiaturizarea în electronică la nivel molecular-atomic, care au prezentat independent considerații generale și unele calcule cu privire la posibilitatea înregistrării, stocării și recuperării informațiilor despre ADN-ul sintetizat și Molecule de ARN. După publicarea primei lucrări MS Neiman și după ce a primit de la editor manuscrisul celei de-a doua lucrări (8 ianuarie 1964, așa cum se indică în acea lucrare), a fost publicat interviul cu ciberneticianul Norbert Wiener. N. Wiener a exprimat idei despre miniaturizarea memoriei computerului, apropiate de idei, propuse de MS Neiman în mod independent. Aceste idei ale lui Wiener MS Neiman le-a menționat în a treia lucrare. Această poveste este descrisă în detalii.

Una dintre primele utilizări ale stocării ADN-ului a avut loc într-o colaborare din 1988 între artistul Joe Davis și cercetătorii de la Harvard. Imaginea, stocată într-o secvență ADN în E.coli , a fost organizată într-o matrice de 5 x 7 care, odată decodificată, a format o imagine a unei vechi rune germanice reprezentând viața și Pământul feminin. În matrice, unele corespundeau pixelilor întunecați, în timp ce zerourile corespundeau pixelilor luminoși.

În 2007, a fost creat un dispozitiv la Universitatea din Arizona, care utilizează molecule de adresare pentru a codifica site-urile de nepotrivire într-un fir ADN. Aceste nepotriviri au putut fi apoi citite prin efectuarea unui rezumat de restricție, recuperând astfel datele.

În 2011, George Church, Sri Kosuri și Yuan Gao au efectuat un experiment care ar codifica o carte de 659 kb, care a fost coautoră de Church. Pentru a face acest lucru, echipa de cercetare a făcut o corespondență două la unu în care un zero binar era reprezentat fie de o adenină, fie de citozină, iar unul binar era reprezentat de o guanină sau timină. După examinare, au fost găsite 22 de erori în ADN.

În 2012, George Church și colegii de la Universitatea Harvard au publicat un articol în care ADN-ul a fost codificat cu informații digitale care includeau o schiță HTML a unei cărți de 53.400 de cuvinte scrise de cercetătorul principal, unsprezece imagini JPG și un program JavaScript. Au fost adăugate mai multe copii pentru redundanță și 5,5 petabiți pot fi depozitați în fiecare milimetru cub de ADN. Cercetătorii au folosit un cod simplu în care biții au fost mapați unul cu altul cu baze, care au avut neajunsul că a dus la rulări lungi ale aceleiași baze, a căror secvențiere este predispusă la erori. Acest rezultat a arătat că, pe lângă celelalte funcții ale sale, ADN-ul poate fi, de asemenea, un alt tip de mediu de stocare, cum ar fi hard disk-urile și benzile magnetice.

În 2013, un articol condus de cercetători de la Institutul European de Bioinformatică (EBI) și trimis în același timp cu lucrarea Church și a colegilor a detaliat stocarea, recuperarea și reproducerea a peste cinci milioane de biți de date. Toate fișierele ADN au reprodus informațiile între 99,99% și 100% precizie. Principalele inovații din această cercetare au fost utilizarea unei scheme de codificare de corectare a erorilor pentru a asigura rata de pierdere a datelor extrem de scăzută, precum și ideea de codificare a datelor într-o serie de oligonucleotide scurte suprapuse identificabile printr-o schemă de indexare bazată pe secvențe . De asemenea, secvențele firelor individuale de ADN s-au suprapus în așa fel încât fiecare regiune de date a fost repetată de patru ori pentru a evita erorile. Două dintre aceste patru fire au fost construite înapoi, tot cu scopul de a elimina erorile. Costurile pe megabyte au fost estimate la 12.400 USD pentru codificarea datelor și 220 USD pentru recuperare. Cu toate acestea, s-a observat că scăderea exponențială a sintezei ADN și a costurilor de secvențiere, dacă va continua în viitor, ar trebui să facă tehnologia rentabilă pentru stocarea datelor pe termen lung până în 2023.

În 2013, un software numit DNACloud a fost dezvoltat de Manish K. Gupta și colegii săi pentru a codifica fișiere computerizate în reprezentarea ADN-ului lor. Implementează o versiune de eficiență a memoriei a algoritmului propus de Goldman și colab. pentru a codifica (și decoda) datele în ADN (fișiere .dnac).

Stabilitatea pe termen lung a datelor codificate în ADN a fost raportată în februarie 2015, într-un articol al cercetătorilor de la ETH Zurich . Echipa a adăugat redundanță prin codificarea corectării erorilor Reed – Solomon și prin încapsularea ADN-ului în sfere de sticlă de silice prin chimia Sol-gel .

În 2016 au fost publicate cercetări realizate de Church and Technicolor Research and Innovation în care, 22 MB dintr-o secvență de film comprimat MPEG au fost stocate și recuperate din ADN. S-a constatat că recuperarea secvenței are zero erori.

În martie 2017, Yaniv Erlich și Dina Zielinski de la Columbia University și New York Genome Center au publicat o metodă cunoscută sub numele de Fântână ADN care stoca date la o densitate de 215 petabiți pe gram de ADN. Tehnica abordează capacitatea Shannon de stocare a ADN-ului, atingând 85% din limita teoretică. Metoda nu era pregătită pentru utilizare pe scară largă, deoarece costă 7000 USD pentru a sintetiza 2 megabyți de date și încă 2000 USD pentru a o citi.

În martie 2018, Universitatea din Washington și Microsoft au publicat rezultate care demonstrează stocarea și recuperarea a aproximativ 200 MB de date. De asemenea, cercetarea a propus și evaluat o metodă de acces aleatoriu a elementelor de date stocate în ADN. În martie 2019, aceeași echipă a anunțat că a demonstrat un sistem complet automatizat pentru codificarea și decodarea datelor în ADN.

Cercetările publicate de Eurecom și Imperial College în ianuarie 2019 au demonstrat capacitatea de a stoca date structurate în ADN sintetic. Cercetarea a arătat cum să codificăm date structurate sau, mai precis, relaționale în ADN sintetic și, de asemenea, a demonstrat cum să efectuăm operațiuni de procesare a datelor (similare cu SQL ) direct pe ADN ca procese chimice.

În iunie 2019, oamenii de știință au raportat că toate cele 16 GB de Wikipedia au fost codificate în ADN sintetic .

Primul articol care descrie stocarea de date pe secvențe de ADN nativ prin tăiere enzimatică a fost publicat în aprilie 2020. În lucrare, oamenii de știință demonstrează o nouă metodă de înregistrare a informațiilor în coloana vertebrală a ADN-ului, care permite accesul aleatoriu pe bază de biți și calculul în memorie.

Davos Bitcoin Challenge

La 21 ianuarie 2015, Nick Goldman de la European Bioinformatics Institute (EBI), unul dintre autorii originali ai lucrării Nature 2013 , a anunțat Davos Bitcoin Challenge la reuniunea anuală a Forumului Economic Mondial de la Davos. În timpul prezentării sale, tuburile ADN au fost înmânate publicului, cu mesajul că fiecare tub conține cheia privată a unui singur bitcoin , toate codificate în ADN. Primul care secvențează și decodează ADN-ul ar putea revendica bitcoinul și ar putea câștiga provocarea. Provocarea a fost stabilită pentru trei ani și s-ar încheia dacă nimeni nu va pretinde premiul înainte de 21 ianuarie 2018.

Aproape trei ani mai târziu, 19 ianuarie 2018, EBI a anunțat că un doctorand belgian, Sander Wuyts, de la Universitatea din Anvers și Vrije Universiteit Brussel , a fost primul care a finalizat provocarea. Alături de instrucțiunile despre cum să revendicați bitcoinul (stocat ca text simplu și fișier PDF ), sigla EBI, sigla companiei care a tipărit ADN-ul (CustomArray) și o schiță a lui James Joyce au fost recuperate din ADN.

ADN-ul lucrurilor

Conceptul ADN-ului lucrurilor (DoT) a fost introdus în 2019 de o echipă de cercetători din Israel și Elveția, inclusiv Yaniv Erlich și Robert Grass. DoT codifică datele digitale în molecule de ADN, care sunt apoi încorporate în obiecte. Acest lucru oferă abilitatea de a crea obiecte care poartă propriul plan, similar cu organismele biologice. Spre deosebire de Internetul obiectelor , care este un sistem de dispozitive de calcul interrelate, DoT creează obiecte care sunt obiecte de stocare independente, complet în afara rețelei .

Ca o dovadă a conceptului pentru DoT, cercetătorul a imprimat 3D un iepuraș Stanford care conține planul său în filamentul de plastic utilizat pentru imprimare. Decupând un pic din urechea iepurașului, au reușit să citească schema, să o înmulțească și să producă o generație următoare de iepurași. În plus, capacitatea DoT de a servi în scopuri steganografice a fost demonstrată prin producerea de lentile care nu se disting, care conțin un videoclip YouTube integrat în material.

Vezi si

Referințe

Lecturi suplimentare