Il DNA sarà la soluzione definitiva per l’archiviazione dei dati

In un mondo inondato di dati, capire dove e come archiviarli in modo efficiente ed economico diventa ogni giorno un grande problema, una delle soluzioni più singolari potrebbe diventare il top della gamma: l’archiviazione dei dati in molecole di DNA.
Il metodo prevalente di conservazione a lungo termine, che risale agli anni ’50, scrive i dati su bobine di nastro magnetico delle dimensioni di una pizza. La conservazione del DNA in confronto è potenzialmente meno costosa, più efficiente dal punto di vista energetico e più duratura. Gli studi dimostrano che il DNA adeguatamente incapsulato con un sale rimane stabile per decenni a temperatura ambiente e dovrebbe durare molto più a lungo negli ambienti controllati di un data center. Il DNA non richiede manutenzione, i file archiviati nel DNA possono essere facilmente copiati a un costo trascurabile, ancora meglio, il DNA può archiviare una quantità impressionante di informazioni in un volume quasi inconcepibilmente piccolo.
È bene considerare che l’umanità genererà circa 33 zettabyte di dati entro il 2025, ovvero 3,3 seguiti da 22 zeri. La conservazione del DNA può spremere tutte queste informazioni in una pallina da ping-pong, lasciando uno spazio libero. I 74 milioni di byte di informazioni nella Biblioteca del Congresso degli Stati Uniti potrebbero essere stipati in un archivio di DNA delle dimensioni di un seme di papavero, dividi il seme a metà e potresti memorizzare tutti i dati di Facebook.
Fantascienza? La tecnologia di archiviazione del DNA esiste oggi, ma per renderla praticabile, i ricercatori devono superare alcuni scoraggianti ostacoli tecnologici legati all’integrazione di diverse tecnologie.
Il team di ricercatori presso il Los Alamos National Laboratory come parte di un’importante collaborazione per svolgere questo lavoro ha sviluppato una abilitante chiave tecnologica per l’archiviazione molecolare. Il loro software, Adaptive DNA Storage Codex (ADS Codex), traduce i file di dati dal linguaggio binario degli zeri e degli uno che i computer comprendono nel codice di quattro lettere che è compreso dalla biologia.
ADS Codex è una parte fondamentale del programma Molecular Information Storage (MIST) di Intelligence Advanced Research Projects Activity (IARPA). MIST cerca di portare a una conservazione di dati la più economica, più grande e più duratura per le operazioni di big data nel settore pubblico e privato, con l’obiettivo a breve termine di scrivere un terabyte, un trilione di byte, e leggere 10 terabyte entro 24 ore al costo di 1.000 dollari.

Dal codice informatico al codice genetico
La maggior parte delle persone quando pensa al DNA, pensa alla vita, non ai computer, ma il DNA stesso è un codice di quattro lettere per trasmettere informazioni su un organismo. Le molecole di DNA sono costituite da quattro tipi di basi, o nucleotidi, ciascuno identificato da una lettera: adenina (A), timina (T), guanina (G) e citosina (C), sono la base di tutto il codice del DNA, fornendo il manuale di istruzioni per costruire ogni cosa vivente sulla terra.
È una tecnologia abbastanza ben compresa, per citare solo alcune applicazioni, la sintesi del DNA è stata ampiamente utilizzata in medicina, prodotti farmaceutici e sviluppo di biocarburanti. La tecnica organizza le basi in varie disposizioni indicate da sequenze specifiche di A, C, G e T, queste basi si avvolgono in una catena attorcigliata l’una intorno all’altra, la familiare doppia elica, per formare la molecola. La disposizione di queste lettere in sequenze crea un codice che dice a un organismo come formarsi.
L’insieme completo di molecole di DNA costituisce il genoma, il progetto del nostro corpo. I ricercatori sintetizzando le molecole di DNA, creandole da zero, hanno scoperto di poter specificare o scrivere lunghe stringhe delle lettere A, C, G e T e poi rileggere quelle sequenze. Il processo è analogo a come un computer memorizza le informazioni binarie, da lì, è stato un breve passo concettuale per codificare un file di computer binario in una molecola.
È stato dimostrato che il metodo funziona, ma leggere e scrivere i file codificati nel DNA attualmente richiede molto tempo. L’aggiunta di una singola base al DNA richiede circa un secondo. Scrivere un file di archivio a questo ritmo potrebbe richiedere decenni, ma la ricerca sta sviluppando metodi più veloci, comprese operazioni massicciamente parallele che contemporaneamente scrivono su molte molecole.

Niente è perduto nella traduzione
ADS Codex dice esattamente come tradurre gli zeri e gli uno in sequenze di quattro combinazioni di lettere di A, C, G e T. Il Codex gestisce anche la decodifica in binario. Il DNA può essere sintetizzato con diversi metodi, ADS Codex può accoglierli tutti.
Sfortunatamente, rispetto ai sistemi digitali tradizionali, i tassi di errore durante la scrittura su memoria molecolare con sintesi del DNA sono molto alti, questi errori derivano da una fonte diversa da quella del mondo digitale, il che li rende più difficili da correggere; su un disco rigido digitale, si verificano errori binari quando uno zero diventa uno o viceversa. I problemi con il DNA derivano da errori di inserimento e cancellazione, ad esempio, potresti scrivere ACGT, ma a volte provi a scrivere A e non appare nulla, quindi la sequenza di lettere si sposta a sinistra o digita AAA.
I normali codici di correzione degli errori non funzionano bene con quel tipo di problema, quindi ADS Codex aggiunge codici di rilevamento degli errori che convalidano i dati. Il software quando riconverte i dati in binario, verifica che i codici corrispondano, in caso contrario, rimuove o aggiunge basi, lettere, fino a quando la verifica non ha esito positivo.

Intelligente scalabilità
I ricercatori hanno completato la versione 1.0 di ADS Codex, alla fine dell’anno prevedono di utilizzarla per valutare i sistemi di archiviazione e recupero sviluppati dagli altri team MIST. Il loro lavoro si adatta bene alla storia di Los Alamos, dagli anni ’40, pionieri di nuovi sviluppi nel campo dell’informatica come parte della loro missione di sicurezza nazionale, come risultato di questo progresso informatico, hanno accumulato alcuni dei più antichi e grandi archivi di dati esclusivamente digitali, ha ancora un valore enorme, poiché conservano i dati per sempre, loro, quando si tratta di trovare una soluzione di conservazione a freddo, da molto tempo sono all’avanguardia, ma non sono soli.
Tutti i dati del mondo, tutte le nostre foto digitali e nostri tweet, tutti i record del settore finanziario globale, tutte quelle immagini satellitari di terre coltivate, movimenti di truppe e scioglimento dei ghiacciai, tutte le simulazioni alla base di tanta parte della scienza moderna e molto altro ancora devono essere conservati da qualche parte.
La “nuvola” non è affatto una nuvola, si tratta di data center digitali in grandi magazzini che consumano enormi quantità di elettricità per immagazzinare (e mantenere al fresco) trilioni di milioni di byte, questi data center con un costo di miliardi di dollari per la costruzione, l’alimentazione e l’esecuzione, potrebbero avere difficoltà a rimanere praticabili poiché la necessità di conservazione dei dati continua a crescere in modo esponenziale.
I ricercatori in conclusione hanno detto:
«Il DNA mostra una grande promessa per saziare il vorace appetito del mondo per l’archiviazione dei dati. La tecnologia richiede nuovi strumenti e nuovi modi di applicare quelli familiari, non stupitevi se un giorno gli archivi più preziosi del mondo troveranno una nuova casa in una raccolta di molecole che avranno la dimensione di un seme di papavero».

archiviazione dati nel DNA