Tecnologia di interfaccia cervello-computer per le persone che hanno perso la capacità di parlare, decodifica i segnali cerebrali in parole

Edward Chang presidente di chirurgia neurologica presso l’Università della California, a San Francisco, sta sviluppando una tecnologia di interfaccia cervello-computer per le persone che hanno perso la capacità di parlare. Il suo laboratorio – come ha spiegato nell’articolo -, lavora sulla decodifica dei segnali cerebrali associati ai comandi al tratto vocale, un progetto che richiede non solo il miglior hardware neurotecnologico, ma anche potenti modelli di apprendimento automatico.

Lo schermo di un computer mostra la domanda “Vuoi dell’acqua?” Sotto, tre punti lampeggiano, seguiti da parole che appaiono, una alla volta: “No, non ho sete”.
È stata l’attività cerebrale a far sì che quelle parole si materializzassero dal cervello di un uomo che non parlava da più di 15 anni, da quando un ictus ha danneggiato la connessione tra il suo cervello e il resto del suo corpo, lasciandolo per lo più paralizzato. Ha usato molte altre tecnologie per comunicare, recentemente per scrivere le parole su un touchscreen, ha utilizzato un puntatore attaccato al suo cappellino da baseball, un metodo efficace ma lento. Si è offerto volontario per la sperimentazione clinica del mio gruppo di ricerca presso l’Università della California, a San Francisco, nella speranza di sperimentare un metodo più veloce. Finora, ha utilizzato il sistema cervello-testo solo durante le sessioni di ricerca, ma vuole aiutare a sviluppare la tecnologia in qualcosa che persone come lui potrebbero usare nella loro vita quotidiana.
Abbiamo applicato nel nostro studio pilota pubblicato nella rivista The New England Journal of Medicine una serie di elettrodi sottili e flessibili sulla superficie del cervello del volontario. Gli elettrodi hanno registrato i segnali neurali e li hanno inviati a un decodificatore vocale, che ha tradotto i segnali nelle parole che l’uomo intendeva pronunciare. È stata la prima volta che una persona paralizzata che non poteva parlare ha usato la neurotecnologia per trasmettere dal cervello intere parole, non solo lettere.
Il nostro esperimento è stato il culmine di oltre un decennio di ricerca sui meccanismi cerebrali che regolano il linguaggio, siamo enormemente orgogliosi di ciò che abbiamo realizzato finora, ma abbiamo appena iniziato. Il mio laboratorio all’Università della California, a San Francisco, sta lavorando con i colleghi di tutto il mondo per rendere questa tecnologia abbastanza sicura, stabile e affidabile per l’uso quotidiano a casa. Stiamo anche lavorando per migliorare le prestazioni del sistema in modo che ne valga la pena.

Ecco come funzionano le neuroprotesi
Le neuroprotesi hanno fatto molta strada negli ultimi due decenni. Gli impianti protesici per l’udito sono i più avanzati, con progetti che si interfacciano con il nervo cocleare dell’orecchio interno o direttamente con il tronco cerebrale uditivo. Sono in corso anche ricerche su impianti retinici e cerebrali per la visione, nonché ricerche per dare alle persone con mani protesiche il senso del tatto. Tutte queste protesi sensoriali prendono informazioni dal mondo esterno e le convertono in segnali elettrici che vengono inviati ai centri di elaborazione del cervello.
Il tipo opposto di neuroprotesi registra l’attività elettrica del cervello e la converte in segnali che controllano elementi nel mondo esterno, come un braccio robotico, un controller per videogiochi o un cursore sullo schermo di un computer, quest’ultima modalità di controllo è stata utilizzata da gruppi come il consorzio BrainGate per consentire alle persone paralizzate di digitare parole, a volte una lettera alla volta, a volte utilizzando una funzione di completamento automatico per accelerare il processo.
Generalmente per questa funzione di “dattilografia cerebrale”, un impianto viene posizionato nella corteccia motoria, la parte del cervello che controlla il movimento. Successivamente l’utente immagina determinate azioni fisiche per controllare un cursore che si muove su una tastiera virtuale.
È stato sperimentato nel 2021 da alcuni miei collaboratori un altro metodo, prevedeva che un utente immaginasse di tenere una penna sulla carta e di scrivere lettere, creando segnali nella corteccia motoria che venivano tradotti in testo. Il metodo ha stabilito un nuovo record di velocità, consentendo al volontario di scrivere circa 18 parole il minuto.
Insieme ai miei collaboratori nella ricerca nel mio laboratorio abbiamo adottato un metodo più ambizioso, invece di decodificare l’intenzione di un utente di muovere un cursore o una penna, decodifichiamo l’intenzione di controllare il tratto vocale, che comprende decine di muscoli che governano la laringe (comunemente chiamata scatola della voce), la lingua e le labbra.
Ho iniziato a lavorare in questo settore più di 10 anni fa, come neurochirurgo, vedevo spesso pazienti con gravi lesioni che li rendevano incapaci di parlare. La localizzazione delle lesioni cerebrali con mia sorpresa in molti casi non coincideva con le sindromi che avevo imparato a studiare nella facoltà di medicina, mi sono reso conto che avevamo ancora molto da imparare su come il linguaggio viene elaborato nel cervello.
Ho deciso di studiare la neurobiologia del linguaggio e, se possibile, di sviluppare un’interfaccia cervello-macchina (BMI) per ripristinare la comunicazione per le persone che l’hanno persa. Oltre al mio background neurochirurgico, il mio team ha competenze in linguistica, ingegneria elettrica, informatica, bioingegneria e medicina. Il nostro studio clinico in corso sta testando sia l’hardware sia il software per esplorare i limiti della nostra interfaccia cervello-macchina (BMI) e determinare il tipo di linguaggio che possiamo restituire alle persone.

I muscoli coinvolti nel linguaggio
Il linguaggio è uno dei comportamenti che contraddistingue l’uomo, molte altre specie vocalizzano, ma solo gli esseri umani combinano una serie di suoni in una miriade di modi diversi per rappresentare il mondo che li circonda. È anche un atto motorio straordinariamente complicato: alcuni esperti ritengono che sia l’azione motoria più complessa che le persone compiono. Parlare è il prodotto di un flusso d’aria modulato attraverso il tratto vocale; a ogni pronunciamento diamo forma al respiro creando vibrazioni udibili nelle pieghe vocali laringee, modificando la forma delle labbra, della mascella e della lingua.
Molti dei muscoli del tratto vocale sono nettamente diversi dai muscoli articolari, come quelli delle braccia e delle gambe, che possono muoversi solo in alcuni modi prestabiliti, per esempio, il muscolo che controlla le labbra è uno sfintere, mentre i muscoli che compongono la lingua sono governati più che altro dall’idraulica. La lingua è in gran parte composta da un volume fisso di tessuto muscolare, quindi muovendo una parte della lingua la sua forma cambia altrove. La fisica che regola i movimenti di questi muscoli è totalmente differente da quella dei bicipiti o dei tendini del ginocchio.
I muscoli coinvolti poiché sono tantissimi e ciascuno di essi ha molti gradi di libertà, essenzialmente esiste un numero infinito di configurazioni possibili, ma quando le persone parlano, si scopre che utilizzano un insieme relativamente ristretto di movimenti fondamentali (che differiscono in qualche modo nelle diverse lingue), per esempio, quando gli anglofoni emettono il suono “d”, mettono la lingua dietro i denti; quando emettono il suono “k”, il dorso della lingua sale fino a toccare la parte superiore della zona posteriore della bocca. Poche persone sono consapevoli delle azioni muscolari precise, complesse e coordinate necessarie per pronunciare la parola più semplice.
Il mio gruppo di ricerca si concentra sulle parti della corteccia motoria del cervello che inviano comandi di movimento ai muscoli del viso, della gola, della bocca e della lingua, questi settori cerebrali sono multitasking: gestiscono i movimenti muscolari che producono il linguaggio e anche i movimenti di quegli stessi muscoli per deglutire, sorridere e baciare.
Studiare l’attività neurale di questi settori in modo utile richiede una risoluzione spaziale sulla scala dei millimetri e una risoluzione temporale sulla scala dei millisecondi. Storicamente, i sistemi di imaging non invasivo sono stati in grado di fornire l’una o l’altra, ma non entrambe, quando abbiamo iniziato questa ricerca, abbiamo trovato pochissimi dati su come i modelli di attività cerebrale fossero associati anche alle componenti più semplici del parlato: fonemi e sillabe.
Abbiamo un debito di gratitudine nei confronti dei nostri volontari, presso il centro per l’epilessia dell’Università della California, a San Francisco, i pazienti che si preparano a un intervento chirurgico sono in genere sottoposti a elettrodi posizionati chirurgicamente sulle superfici del loro cervello per diversi giorni, in modo da poter mappare le regioni coinvolte quando hanno le crisi. Molti pazienti durante questi pochi giorni di inattività, si offrono volontari per esperimenti di ricerca neurologica che utilizzano le registrazioni degli elettrodi dal loro cervello. Il mio gruppo ha chiesto ai pazienti di lasciarci studiare i loro schemi di attività neurale mentre pronunciavano delle parole.
L’hardware coinvolto si chiama elettrocorticografia (ECoG). Gli elettrodi di un sistema ECoG non penetrano nel cervello, ma si trovano sulla sua superficie. I nostri array possono contenere centinaia di sensori di elettrodi, ognuno dei quali registra migliaia di neuroni. Finora abbiamo utilizzato un array con 256 canali. Il nostro obiettivo in questi primi studi era scoprire i modelli di attività corticale quando le persone pronunciano semplici sillabe.
Abbiamo chiesto ai volontari di pronunciare suoni e parole specifiche mentre registravamo i loro schemi neurali e seguivamo i movimenti della lingua e della bocca, a volte lo facevamo facendo indossare loro una pittura facciale colorata e usando un sistema di visione computerizzata per estrarre i gesti cinematici; altre volte usavamo una macchina a ultrasuoni posizionata sotto le mandibole dei pazienti per immaginare le loro lingue in movimento.
Abbiamo utilizzato questi sistemi per abbinare i modelli neurali ai movimenti del tratto vocale, all’inizio avevamo molti dubbi sul codice neurale, una possibilità era che l’attività neurale codificasse le direzioni di particolari muscoli e che il cervello, in sostanza, accendesse e spegnesse questi muscoli come se premesse dei tasti su una tastiera. Tra le altre idee, una era che il codice determinasse la velocità delle contrazioni muscolari; l’altra era che l’attività neurale corrispondesse a schemi coordinati di contrazioni muscolari utilizzati per produrre un determinato suono: per esempio, per produrre il suono “aaah”, è necessario che si abbassino sia la lingua sia la mascella. Abbiamo scoperto che esiste una mappa di rappresentazioni che controlla le diverse parti del tratto vocale e che, insieme, le diverse aree cerebrali si combinano in modo coordinato per dare origine a un fluente discorso.

Il ruolo dell’intelligenza artificiale nelle neurotecnologie di oggi
Il nostro lavoro dipende dai progressi dell’intelligenza artificiale degli ultimi dieci anni. Possiamo inserire i dati raccolti sull’attività neurale e sulla cinematica del parlato in una rete neurale, quindi lasciare che l’algoritmo di apprendimento automatico trovi modelli nelle associazioni tra i due gruppi di dati. È stato possibile creare connessioni tra l’attività neurale e il parlato prodotto e utilizzare questo modello per il parlato o testo generato al computer, ma questa tecnica non poteva addestrare un algoritmo per le persone paralizzate perché ci mancava metà dei dati: avevamo i modelli neurali ma nulla sui movimenti muscolari corrispondenti.
Abbiamo capito che il modo più intelligente di utilizzare l’apprendimento automatico era quello di suddividere il problema in due passaggi, in primo luogo, il decodificatore traduce i segnali del cervello in movimenti previsti dei muscoli del tratto vocale, quindi traduce questi movimenti previsti in un discorso o in un testo sintetizzato.
Lo chiamiamo metodo biomimetico perché copia la biologia; nel corpo umano, l’attività neurale è direttamente responsabile dei movimenti del tratto vocale ed è solo indirettamente responsabile dei suoni prodotti. Il grande vantaggio di questo metodo è l’addestramento del decodificatore per la seconda fase di traduzione dei movimenti muscolari in suoni, poiché le relazioni tra i movimenti del tratto vocale e il suono sono abbastanza universali, siamo stati in grado di addestrare il decodificatore su grandi serie di dati provenienti da persone non paralizzate.

Studio clinico per testare la nostra neuroprotesi vocale
La sfida successiva è stata quella di portare la tecnologia alle persone che potrebbero trarne beneficio. Il National Institutes of Health (NIH) sta finanziando la nostra sperimentazione clinica pilota per la neuroprotesi del linguaggio, iniziata nel 2021. Abbiamo già due volontari paralizzati con array ECoG impiantati, speriamo di arruolarne altri nei prossimi anni. L’obiettivo principale è migliorare la loro comunicazione, stiamo misurando le prestazioni in termini di parole al minuto, valutando che un adulto medio che digita su una tastiera può scrivere 40 parole il minuto, mentre i dattilografi più veloci raggiungono velocità superiori a 80 parole il minuto.
Pensiamo che utilizzare il sistema vocale possa fornire risultati migliori. Il parlato umano è molto più veloce della digitazione: un anglofono può pronunciare facilmente 150 parole in un minuto. Vorremmo consentire alle persone paralizzate di comunicare a una velocità di 100 parole il minuto. Abbiamo molto lavoro da fare per raggiungere questo obiettivo, ma pensiamo che il nostro metodo lo renderà fattibile.
La procedura per l’impianto di “dattilografia cerebrale” è di routine, il chirurgo innanzitutto rimuove una piccola porzione di cranio, quindi, l’array ECoG flessibile viene posizionato delicatamente sulla superficie della corteccia, una piccola porta viene fissata all’osso del cranio e fuoriesce da un’apertura separata nel cuoio capelluto. Attualmente abbiamo bisogno di questa porta, che si collega a fili esterni per trasmettere i dati dagli elettrodi, in futuro speriamo di rendere wireless il sistema.
Abbiamo preso in considerazione l’uso di microelettrodi penetranti, perché possono registrare da porzioni neurali più piccole, quindi possono fornire maggiori dettagli sull’attività neurale, ma l’hardware attuale per le applicazioni cliniche, soprattutto nel corso degli anni non è robusto e sicuro come l’ECoG.
Altra considerazione è che gli elettrodi penetranti in genere richiedono una ricalibrazione quotidiana per trasformare i segnali neurali in comandi chiari, la ricerca sui dispositivi neurali ha dimostrato che la velocità di configurazione e l’affidabilità delle prestazioni sono fondamentali per convincere le persone a utilizzare la tecnologia, per questo motivo abbiamo dato priorità alla stabilità nella creazione di un sistema “plug and play” per l’uso a lungo termine. Abbiamo condotto uno studio sulla variabilità dei segnali neurali di un volontario nel corso del tempo, abbiamo scoperto che il decodificatore funzionava meglio se utilizzava schemi di dati in più sessioni e in più giorni. In termini di apprendimento automatico, diciamo che i “pesi” del decodificatore si sono trasferiti, creando segnali neurali consolidati.
I nostri volontari paralizzati poiché non possono parlare mentre osserviamo i loro schemi cerebrali, abbiamo chiesto al nostro primo volontario di provare due differenti metodi. Ha iniziato con un elenco di 50 parole utili per la vita quotidiana, come “fame”, “sete”, “per favore”, “aiuto” e “computer”, nel corso di 48 sessioni per diversi mesi, a volte gli abbiamo chiesto di immaginare di pronunciare ciascuna delle parole dell’elenco, altre volte gli abbiamo chiesto di provare a pronunciarle apertamente. Abbiamo scoperto che i tentativi di parlare generavano segnali cerebrali più chiari ed erano sufficienti per addestrare l’algoritmo di decodifica. Il volontario poi ha potuto usare le parole dell’elenco per generare frasi a sua scelta, come “No, non ho sete”.
Ora stiamo cercando di espandere il vocabolario a un numero maggiore di parole, per far sì che ciò funzioni, dobbiamo continuare a migliorare gli algoritmi e le interfacce attuali. Sicuro che questi miglioramenti avverranno nei prossimi mesi e anni, adesso che la prova di principio è stata stabilita, l’obiettivo è l’ottimizzazione. Possiamo concentrarci per rendere il nostro sistema più veloce, più preciso e, cosa più importante, più sicuro e affidabile, tutto ciò dovrebbe svolgersi rapidamente.
Le scoperte più importanti probabilmente arriveranno non appena riusciremo a comprendere meglio i sistemi cerebrali che stiamo cercando di decodificare, e come la paralisi altera la loro attività. Ci siamo resi conto che gli schemi neurali di una persona paralizzata che non può inviare comandi ai muscoli del tratto vocale, sono molto diversi da quelli di un paziente epilettico che può farlo. Stiamo tentando un’impresa ambiziosa di ingegneria interfaccia cervello-macchina (BMI), anche se c’è ancora molto da imparare sulla neuroscienza, siamo convinti che tutto ciò si concretizzerà per ridare la loro voce ai nostri pazienti.

elettrocorticografia (ECoG)interfaccia computer-cervello