Translatotron di Google traduce direttamente il discorso in un’altra lingua

Google ha presentato un nuovo strumento di traduzione chiamato Translatotron ancora più dinamico e potente della sua app Translate. E’ un modello di traduzione primo nel suo genere in grado di tradurre direttamente il parlato da una lingua all’altra mantenendo la voce e la cadenza di un oratore. Lo strumento rinuncia alla solita operazione di tradurre il discorso in testo e il ritorno al parlato, il che può spesso portare a errori lungo il percorso; invece, la tecnica end-to-end traduce direttamente la voce di un oratore in un’altra lingua. La società spera che lo sviluppo aprirà orizzonti futuri utilizzando il modello di traduzione diretta.

Google Translatotron
Google spiega che Translatotron utilizza un modello sequenza-sequenza che prende l’input vocale, lo elabora come uno spettrogramma – una rappresentazione visiva delle frequenze – e genera un nuovo spettrogramma in una lingua target. Il risultato è una traduzione molto più veloce con meno probabilità di perdere qualcosa lungo la strada. Lo strumento per mantenere la voce di un oratore funziona anche con un elemento opzionale di codifica degli altoparlanti.
Il discorso tradotto è ancora sintetizzato e suona un po’ robotico, ma può effettivamente mantenere alcuni elementi della voce di un oratore. E’ possibile ascoltare sulla pagina GitHub di Google Research esempi dei tentativi di Translatotron di mantenere la voce di un oratore mentre completa le traduzioni, alcuni sono certamente migliori di altri, ma è un inizio.
Google nel suo post sul blog ha scritto:
«Translatotron è il primo modello end-to-end in grado di tradurre direttamente il parlato da una lingua in un discorso in un’altra lingua, mantenendo anche la voce sorgente dell’oratore nel discorso tradotto».

Punteggio bleu
Google per misurare l’efficienza e la qualità della traduzione, ha utilizzato le rubriche di misurazione Bleu. Afferma di aver dimostrato la fattibilità della traduzione diretta end-to-end da discorso a discorso. Translatotron ha ottenuto traduzioni più accurate rispetto alle traduzioni di base a cascata.
I dettagli sullo strumento Translatotron sono esposti in modo più dettagliato in un documento appena pubblicato intitolato “Direct Speech-to-speech translation with a sequence-to-sequence model”. Lo strumento arriva un mese dopo che Google ha introdotto SpecAugment, un modello d’intelligenza artificiale che combina il computer vision e un insieme di tecniche per estrarre parole dalle immagini dello spettrogramma.