Nuova tecnologia AI delle cuffie con cancellazione del rumore consente di scegliere quali suoni sentire

Quasi tutti coloro che hanno utilizzato cuffie con cancellazione del rumore sanno che sentire il rumore giusto al momento giusto può essere vitale, per esempio, qualcuno potrebbe voler spegnere i clacson delle auto quando lavora in ambienti chiusi, ma non quando cammina lungo strade trafficate. Eppure le persone non possono scegliere quali suoni cancellare dalle loro cuffie.
Ora, un team guidato dai ricercatori dell’Università di Washington ha sviluppato algoritmi di deep learning, in tempo reale, consentono agli utenti di scegliere quali suoni filtrare attraverso le loro cuffie.

Udito semantico
Il team ha chiamato il nuovo dispositivo “Udito semantico”. Le cuffie trasmettono l’audio catturato a uno smartphone connesso, cancellando tutti i suoni ambientali. Attraverso i comandi vocali o un’app per smartphone, chi indossa le cuffie può selezionare quali suoni desidera includere tra 20 classi, come sirene, pianti di bambini, parlato, aspirapolvere e cinguettio degli uccelli. Solo i suoni selezionati verranno riprodotti attraverso le cuffie (vedi video).

Il team ha pubblicato il documento di ricerca nella rivista ACM DL Digital Library e presentato il nuovo dispositivo in occasione del Simposio ACM sul software e la tecnologia dell’interfaccia utente (UIST) 2023. È il principale forum per le innovazioni nelle interfacce uomo-computer, che si è svolto a San Francisco dal 29 ottobre all’1 novembre 2023. I ricercatori in futuro, prevedono di rilasciare una versione commerciale del dispositivo.
Shyam Gollakota, Professore associato, Informatica e ingegneria dell’Università di Washington, componente del team, ha affermato:
«Capire il verso di un uccello ed estrarlo da tutti gli altri suoni in un ambiente richiede un’intelligenza in tempo reale che le odierne cuffie con cancellazione del rumore non sono riuscite a raggiungere. La sfida è che i suoni che sentono coloro che indossano le cuffie devono sincronizzarsi con i loro sensi visivi, non puoi sentire la voce di qualcuno due secondi dopo che ti ha parlato. Ciò significa che gli algoritmi neurali devono elaborare i suoni in meno di un centesimo di secondo».
Il sistema “Udito semantico” condizionato dalla citata limitazione di tempo, deve elaborare i suoni su un dispositivo come uno smartphone connesso, invece che su server cloud più robusti. Inoltre, poiché i suoni provenienti da direzioni diverse arrivano alle orecchie delle persone in momenti diversi, il sistema deve preservare questi ritardi e altri segnali spaziali, in modo che le persone possano ancora percepire significativamente i suoni nel loro ambiente.
Il dispositivo testato in ambienti come uffici, strade e parchi, è stato in grado di estrapolare sirene, cinguettii di uccelli, allarmi e altri suoni target, rimuovendo al contempo tutti gli altri rumori del mondo reale.
I 22 partecipanti al test quando hanno valutato l’uscita audio del sistema in base al suono target, hanno affermato che in media la qualità è migliorata rispetto alla registrazione originale.
Il dispositivo in alcuni casi, ha avuto difficoltà a distinguere tra suoni che condividono molte proprietà, come la musica vocale e il linguaggio umano. Il team di ricercatori ha sottolineato che addestrare i modelli su dati più reali, potrebbe migliorare questi risultati.

,
Avatar photo

About Pino Silvestri

Pino Silvestri, blogger per diletto, fondatore, autore di Virtualblognews, presente su Facebook e Twitter.
View all posts by Pino Silvestri →