Intelligenza artificiale per convertire la lingua dei segni in formato video in lingua parlata in formato testo

La tecnologia di riconoscimento vocale come Alexa e Siri per le persone non udenti e con problemi di udito, può rappresentare un ostacolo a una comunicazione efficace.
I ricercatori della Barcelona Supercomputing Center (BSC) e dell’Universitat Politècnica de Catalunya (UPC) nello studio pubblicato nella rivista ArXiv, hanno utilizzato l’intelligenza artificiale per sviluppare uno strumento per convertire in testo la lingua dei segni, un passo importante per consentire alle persone non udenti e ipoudenti di interagire con la tecnologia e accedere ai servizi digitali progettati per l’uso con le lingue parlate.
Il sistema, ancora in fase sperimentale, per convertire intere frasi in lingua dei segni in formato video in lingua parlata in formato testo, utilizza un modello di machine learning chiamato Transformers, che è alla base di altri strumenti di intelligenza artificiale come ChatGPT.
Lo strumento attualmente è incentrato sulla lingua dei segni americana (ASL) ma potrebbe essere adattato a qualsiasi altra lingua purché siano disponibili tutti i dati necessari, ovvero l’esistenza di un corpus dati paralleli in cui ogni frase della lingua dei segni (in formato video) ha una corrispondente traduzione in lingua parlata (in formato testo). La raccolta di dati può essere effettuata attraverso la registrazione di video di persone che utilizzano la lingua dei segni. Il corpus dati dovrebbe essere costituito da una varietà di registrazioni che coprono diverse situazioni comunicative.
Laia Tarrés, ricercatrice presso BSC e UPC, ha presentato lo studio del nuovo strumento in coincidenza della celebrazione della Giornata Mondiale della Sensibilizzazione sull’Accessibilità, ha affermato:
«Il nuovo strumento è un’estensione di una precedente applicazione creata da BSC e UPC chiamata How2Sign, consente di imparare la lingua dei segni in modo semplice e divertente. I modelli sono stati addestrati con più di 80 ore di video in cui gli interpreti della lingua dei segni americana hanno tradotto video tutorial comprese ricette di cucina e trucchi e idee fai da te. Il team di ricercatori con questi dati già disponibili, ha sviluppato il nuovo software open source in grado di apprendere la mappatura tra video e testo».

Primo passo verso la vera applicazione
I ricercatori hanno affermato che questo nuovo studio è un passo avanti nella giusta direzione, ma sottolineano anche che c’è ancora molto spazio per miglioramenti. I primi sviluppi al momento non consentono la creazione di un’applicazione concreta al servizio degli utenti. L’obiettivo è continuare a lavorare per migliorare lo strumento e ottenere un’applicazione reale che promuova la creazione di tecnologie accessibili per le persone non udenti e ipoudenti.
Il progetto presentato presso lo spazio Fundación Telefónica di Madrid nell’ambito della mostra “Codice e algoritmi. Saggezza in un mondo calcolato” con una presenza di spicco come la Barcelona Supercomputing Center (BSC), riunisce diversi progetti legati all’intelligenza artificiale. Presto sarà anche esposto al Centre de Cultura Contemporània de Barcelona (CCCB) come parte di una grande mostra sempre sull’intelligenza artificiale che aprirà a ottobre.
Laia Tarrés in conclusione ha detto:
«Il nostro strumento aperto per la traduzione automatica nella lingua dei segni è un prezioso contributo alla comunità scientifica focalizzata sull’accessibilità, rappresenta un passo significativo verso la creazione di una tecnologia più inclusiva e accessibile a tutti».

Avatar photo

About Pino Silvestri

Pino Silvestri, blogger per diletto, fondatore, autore di Virtualblognews, presente su Facebook e Twitter.
View all posts by Pino Silvestri →