Ecco come i supercomputer stanno identificando le terapie per il coronavirus Covid-19

Christopher Rickett, Kristi Maschhoff e Sreenivas Sukumar stavano studiando le potenziali terapie per il coronavirus Covid-19 quando si è presentato un insolito punto di dati: gli individui esposti al coronavirus Covid-19 che erano stati precedentemente vaccinati per il tetano mostravano sintomi sempre meno gravi. Il recente studio su donne in gravidanza ha rilevato che l’88% di coloro che sono risultati positivi al virus erano asintomatici, un tasso approssimativamente doppio rispetto alla popolazione generale. Era possibile che il vaccino TDaP, che è comunemente somministrato alle donne incinte, offrisse un livello di immunità inaspettato e poco intuitivo? L’articolo che descrive in dettaglio la ricerca e propone la teoria è stato accettato per la pubblicazione nella rivista Medical Hypotheses.
La parte insolita di queste scoperte, a parte la loro pura novità, è che Christopher Rickett e Kristi Maschhoff non sono ricercatori medici, sono ingegneri della Cray (il ramo di supercalcolo della Hewlett Packard Enterprise), prima del coronavirus Covid-19 non avevano alcuna esperienza con la ricerca medica, ma all’inizio di quest’anno hanno teorizzato che il potente e massiccio database di grafici a elaborazione parallela dei supercomputer di Cray poteva essere sfruttato per indagare sulle terapie per l’emergente pandemia coronavirus Covid-19 e su una scala molto più efficiente di quanto non fosse mai stato fatto prima.
Christopher Rickett ha detto:
«Non avevamo molte informazioni, ma ci siamo chiesti come potevamo dare un senso ragionevole a tutti i dati relativi a qualcosa di così nuovo. L’idea che ci è venuta è stata quella di creare la capacità di fare un’analisi della sequenza proteica, un confronto per le somiglianze tra una sequenza proteica nota come la proteina Covid-19 Spike e tutte le altre nell’universo conosciuto. Se potessimo trovare un modo per mappare queste informazioni su qualcosa di cui la medicina già sapeva, potremmo cercare composti che sono più utili come trattamenti perché sono mirati a una proteina simile».

Una sfida di portata epica
La sfida è immensa perché la scala dei dati coinvolti nella ricerca per il coronavirus Covid-19 è così vasta. Ciò include milioni di proteine note da modellare contro il picco critico di coronavirus Covid-19, praticamente 30 terabyte di dati medici memorizzati da elaborare e più di 150 miliardi di dati di conoscenza medica disponibili per l’analisi. È impossibile per un ricercatore umano digerire anche solo una piccola parte di queste informazioni, anche se dotato di un computer all’avanguardia. Il tentativo di modellare le strutture proteiche e le interazioni dei farmaci con una singola molecola bersaglio è un processo che può richiedere mesi.
Kristi Maschhoff ha aggiunto:
«Queste valutazioni in genere richiedono molto tempo, è un problema che sapevamo necessitasse di una soluzione immediata».
Il supporto del Cray Graph Engine (CGE) per i ricercatori è stato determinante, consente di ridurre il lavoro sfruttando simultaneamente centinaia o migliaia di core CPU, per valutare milioni di molecole in pochi secondi, modificando potenzialmente il metodo di ricerca terapeutica coronavirus Covid-19, spianando la strategia per future scoperte.
Cray Graph Engine (CGE) nello specifico è un’applicazione software altamente ottimizzata progettata per l’elaborazione ad alta velocità di dati interconnessi. È dotato di una piattaforma avanzata per la ricerca di database orientati ai grafici di grandi dimensioni e per l’interrogazione di relazioni complesse tra elementi di dati nel database. Fornisce gli strumenti necessari per acquisire, organizzare e analizzare grandi set di dati interconnessi. Consente di eseguire analisi in tempo reale sui problemi dei grafici più grandi e complessi e offre un supporto altamente ottimizzato per inferenza, analisi approfondita dei grafici e query basate su modelli.
Il Cray Graph Engine (CGE) concettualmente funziona costruendo un database di punti di dati chiamati triplici, ognuno dei quali è una semplice raccolta di tre fatti sotto forma di soggetto, verbo, oggetto. Per esempio: Covid-19, cause, febbre. I ricercatori hanno detto che questi triplici sono tratti da nove giganteschi set di dati medici in evoluzione combinati per un totale di oltre 155 miliardi di punti di dati. È un lavoro che sarebbe impossibile da comprendere anche in un ambiente informatico convenzionale, ma l’estrema potenza del Cray Graph Engine (CGE) fa sì che tutti questi dati possano essere caricati nei suoi banchi di memoria e pronti per l’analisi in meno di un’ora.
Christopher Rickett insieme al team con i dati preparati hanno poi messo in funzione questo grafico di conoscenza, utilizzando algoritmi di intelligenza artificiale per cercare connessioni e elementi comuni secretati in tutti i vari dataset. Hanno iniziato con un tentativo di determinare se la sequenza proteica che costituisce il coronavirus Covid-19 si sovrappone a qualsiasi altro virus conosciuto. I ricercatori da lì si sono interrogati sui dati per scoprire se esistevano farmaci che erano già stati usati con successo per trattare i disturbi con quelle sequenze proteiche che si sovrappongono.
La ricerca medica tradizionale prevede che questo tipo di lavoro dovrebbe essere fatto con un database alla volta, ma all’interno dell’ambiente Cray Graph Engine (CGE) il team è stato in grado di cercare contemporaneamente in tutti i database e di trovare connessioni tra i database che sarebbero state invisibili alle strategie di ricerca standard.
Kristi Maschhoff ha detto:
«Avendo tutte queste informazioni integrate nello stesso database, stiamo semplificando il tempo di interrogazione, possiamo scrivere query più complesse che si estendono su più set di dati».

Ricerca di collegamenti
Il grafico della conoscenza di Cray implica una logica complessa che collega questi nove database attraverso una serie di domande logiche. I database dei farmaci che catalogano le proprietà di una singola sostanza chimica vengono incrociati per trovare che le interazioni del farmaco con le sequenze proteiche sono simili a quelle del picco coronavirus Covid-19. È interrogato un altro database per determinare quali potrebbero essere gli effetti collaterali di questo potenziale trattamento; un altro database è esaminato per determinare se il farmaco è stato usato in un precedente studio clinico e se è stato ritenuto efficace e sicuro; un’altra serie di dati è utilizzata per determinare se è fattibile e come sintetizzare il farmaco. L’intelligenza artificiale dopo aver considerato tutti i fatti rilevanti in ciascuno di questi dataset, indica se un composto vale la pena di essere considerato come un potenziale trattamento e poi procede con il candidato successivo.
Il Cray Graph Engine (CGE) alla fine ha ridotto i dati a circa 160 farmaci che hanno mostrato una promettente interazione con gli analoghi del coronavirus Covid-19, compreso un numero che era stato identificato da altri ricercatori (come il Desametasone e il Lopinavir) e che sono già in fase di valutazione clinica; anche il potenziale legame tra il vaccino antitetanico e la riduzione dei sintomi è stato scoperto attraverso questa analisi. In totale, più di 49 milioni di sequenze proteiche sono state confrontate con la proteina Covid spike.
Christopher Rickett ha detto:
«Il nostro processo si scala in modo abbastanza lineare, ogni volta che raddoppiamo il numero di punti, ci vuole la metà del tempo».
L’analisi con un computer a processo singolo avrebbe richiesto giorni. Il team utilizzando la piattaforma CGE di Cray, alla fine è riuscito a ridurre questa analisi a meno di 20 secondi, con spazio per futuri ulteriori miglioramenti delle prestazioni.
È una manna per i ricercatori, perché il supercomputer è ampiamente sfruttato in tutto il panorama della ricerca coronavirus Covid-19, anche presso Exscalate4CoV, una partnership di 50 entità sparse in tutta Europa, all’inizio di quest’anno ha utilizzato quattro supercomputer separati per testare 400.000 molecole per il loro potenziale di interfaccia con il coronavirus Covid-19, alla fine ha scelto un farmaco, il Raloxifene, come candidato più promettente. Gli studi clinici sono stati annunciati alla fine di ottobre, dureranno 12 settimane. La prospettiva di accelerare questa ricerca attraverso il Cray Graph Engine (CGE) è una fortuna, poiché tutto ciò che può accelerare l’analisi di questi massicci set di dati può essere utile per lo sviluppo di una terapia di successo.

Coronavirus Covid-19 ricerca e oltre
La ricerca di Christopher Rickett, Kristi Maschhoff e Sreenivas Sukumar naturalmente ha implicazioni che vanno oltre il riorientamento dei farmaci coronavirus Covid-19. Il set di dati consolidato con l’insieme di nove database medici caricati nel grafico della conoscenza, può essere interrogato per qualsiasi cosa. Il team di ricercatori mentre l’obiettivo immediato è quello di trovare trattamenti per il coronavirus Covid-19 che possono essere testati in vivo, sta condividendo le sue scoperte con ricercatori medici e farmacologi.
La ricerca con la piattaforma CGE di Cray evidenzia come l’intelligenza artificiale possa essere uno strumento fondamentale per trovare cure per malattie emergenti con farmaci già esistenti. Tutto ciò che serve è un sistema progettato in modo intelligente per individuare le giuste connessioni e analisi in meno di 20 secondi.

About Pino Silvestri

Pino Silvestri, blogger per diletto, fondatore, autore di Virtualblognews, presente su Facebook e Twitter.
View all posts by Pino Silvestri →