L’intelligenza artificiale quasi perfetta nella lettura del labiale (video)

Primo livello del modello di lettura labiale
La lettura labiale è un modo di intendere il discorso interpretando il movimento delle labbra di una persona, tuttavia, il linguaggio umano è molto complesso e ricco di sfumature, per questo un movimento delle labbra potrebbe corrispondere a diversi fonemi, o unità di base del suono: la lettura è soggetta a errori, a volte possono portare a risultati umoristici.
Gli scienziati dell’Università di Oxford hanno descritto un sistema d’intelligenza artificiale, chiamato LipNet, in grado di leggere accuratamente le labbra. Il sistema si avvale dell’apprendimento profondo per allenarsi con 29.000 video di tre secondi etichettati con didascalie. Il dispositivo precedente per la lettura del labiale che si basa sulla parola per parola è stato progettato per associare un fonema con un certo movimento delle labbra. Ha raggiunto una precisione del 79,6 per cento. LipNet invece, funziona su intere frasi alla volta, ottenendo una precisione del 93,4 per cento, quando è stato confrontato con i lettori di labiale umani, che hanno ottenuto una precisione del 52,3 per cento, LipNet è stato 1,78 volte più preciso nel tradurre le stesse frasi.

Altri strumenti per i non udenti
La precisione di LiptNet anche se è impressionante, non è ancora perfetta, nel test i video avevano l’inquadratura ideale e l’altoparlante di fronte alla telecamera. I risultati possono variare quando eseguiti con video meno ideali.
La tecnologia è promettente, gli scienziati sono alla ricerca di applicazioni per questa tecnologia, ad esempio, potrebbe essere utilizzato come strumento per i non udenti. Altre tecnologie risolvono questo problema in modi diversi, per esempio sfruttando la sostituzione sensoriale.

Pino Silvestri

About Pino Silvestri

Pino Silvestri, blogger per diletto, fondatore, autore di Virtualblognews, presente su Facebook e Twitter.
View all posts by Pino Silvestri →