I ricercatori utilizzano la Bibbia per perfezionare gli algoritmi di traduzione

I ricercatori del Dartmouth College come fonte d’ispirazione per migliorare i traduttori di testi basati su computer, per una guida si sono rivolti alla Bibbia. Il risultato è un algoritmo addestrato su varie versioni dei testi sacri che può convertire le opere scritte in stili diversi per pubblici diversi.
Strumenti internet sono ampiamente disponibili per tradurre testi tra lingue come l’inglese e lo spagnolo. La creazione di traduttori di stile – strumenti che mantengono il testo nella stessa lingua ma ne trasformano lo stile – sono stati più lenti nell’emergere. Gli sforzi per sviluppare i traduttori sono stati ostacolati dalla difficoltà di acquisire l’enorme quantità di dati richiesti.
E’ qui che il team di ricerca si è rivolto alla Bibbia: oltre ad essere una fonte di guida spirituale per molte persone in tutto il mondo, il team di Dartmouth ha visto nella Bibbia “un grande set di dati di testo parallelo allineato e non ancora sfruttato” (la caratteristica principale di un testo parallelo è che ha sezioni di testo allineate in almeno due lingue, consente di comprendere rapidamente il significato in una nuova lingua utilizzando una lingua che già si comprende).
Ogni versione della Bibbia oltre a fornire ispirazione infinita, contiene più di 31.000 versi che i ricercatori hanno utilizzato per produrre più di 1,5 milioni di abbinamenti unici di versi di origine e di destinazione per i set di addestramento all’apprendimento automatico.
La ricerca pubblicata sulla rivista Royal Society Open Science, riporta che questo non è il primo set di dati parallelo creato per la traduzione di stile, ma è il primo che usa la Bibbia: in passato sono stati utilizzati altri testi, da Shakespeare alle voci di Wikipedia, forniscono insiemi di dati che sono molto più piccoli o meno adatti al compito di imparare la traduzione di stile.
Keith Carlson, studente, dottorato di ricerca a Dartmouth, autore principale del documento di ricerca, ha detto:
«La Bibbia in lingua inglese è disponibile in molti stili di scrittura diversi, ciò rende il testo di partenza perfetto per la traduzione di stile».
La Bibbia come ulteriore vantaggio per il team di ricerca è già completamente indicizzata dall’uso coerente dei numeri del libro, dei capitoli e dei versi. L’organizzazione prevedibile del testo tra le versioni elimina il rischio di errori di allineamento che potrebbero essere causati da metodi automatici di abbinamento di diverse versioni dello stesso testo.
Daniel Rockmore, professore d’informatica a Dartmouth, autore dello studio, ha aggiunto:
«La Bibbia è un insieme di dati “divini” con cui lavorare per studiare il metodo per perfezionare gli algoritmi di traduzione. Gli esseri umani per secoli hanno svolto il compito di organizzare testi biblici, così non abbiamo dovuto mettere il nostro credo religioso in algoritmi di allineamento meno affidabili».
I ricercatori per definire lo “stile” per lo studio, fanno riferimento alla lunghezza della frase, all’uso di voci passive o attive e alla scelta delle parole che potrebbero risultare in testi con vari gradi di semplicità o formalità. La ricerca evidenzia:
«Diverse formulazioni possono esprimere differenti livelli di cortesia o familiarità con il lettore, visualizzare diverse informazioni culturali sullo scrittore, essere più facili da capire per determinate popolazioni».
Il team ha utilizzato 34 versioni bibliche stilisticamente distinte, vanno dalla “King James Version“ (è una traduzione inglese della Bibbia cristiana per la Chiesa d’Inghilterra, iniziata nel 1604 e completata / pubblicata nel 1611), alla “Bible in Basic English” (La Bibbia in inglese di base è stata tradotta dal Professor SH Hooke, utilizzando 1.000 semplici parole, è efficace nel comunicare la Bibbia a chi ha un’istruzione limitata o dove l’inglese è una seconda lingua).
I testi sono stati inseriti in due algoritmi:
– un sistema di traduzione automatica statistica chiamato “Moses“: è un’implementazione dell’approccio statistico (o basato sui dati) alla traduzione automatica (MT), viene utilizzato dai sistemi di traduzione online implementati da Google e Microsoft;
– una struttura di rete neurale “Seq2Seq” comunemente usata nella traduzione automatica.
I ricercatori hanno detto di aver utilizzato diverse versioni della Bibbia, in definitiva potrebbero sviluppare sistemi che traducono lo stile di qualsiasi testo scritto per diversi tipi di pubblico: ad esempio, un traduttore di stile potrebbe prendere una selezione in lingua inglese da “Moby Dick” e tradurla in versioni diverse adatte a giovani lettori, madrelingua inglese o a una varietà di pubblico.
Keith Carlson in conclusione ha detto:
«La semplificazione del testo è solo uno specifico tipo di trasferimento di stile. I nostri sistemi, più in generale, mirano a produrre testi con lo stesso significato dell’originale, ma con parole diverse».

Alcune note su Dartmouth College
Dartmouth College è protagonista di una lunga storia d’innovazione nell’informatica:
– il termine “intelligenza artificiale” è stato coniato a Dartmouth nel 1956 durante una conferenza che ha creato la disciplina di ricerca sull’IA;
– la progettazione di BASIC un linguaggio di programmazione ideato nel 1964 negli Stati Uniti caratterizzato da una sintassi semplice e molto simile al linguaggio naturale. Più nello specifico si tratta di un linguaggio di programmazione ad alto livello, adatto a ogni scopo (general-purpose) e progettato specificatamente per essere semplice da utilizzare. La gran parte degli studenti del Dartmouth College, università dove fu ideato e sviluppato, erano iscritti a facoltà umanistiche: era quindi indispensabile che potesse essere utilizzato anche da neofiti della materia. Non bisogna, però, lasciarsi ingannare: BASIC è un acronimo e sta per Beginner’s All-purpose Symbolic Instruction Code (in italiano codice simbolico per principianti per ogni applicazione). Il fatto che il nome replichi la sua caratteristica principale – la semplicità – è probabilmente una coincidenza fortunata;
– il sistema operativo Dartmouth Time-Sharing System sviluppato per la prima volta al Dartmouth College tra il 1963 e il 1964. Fu il primo sistema di time-sharing su larga scala a essere implementato ed era anche il sistema per il quale il linguaggio BASIC era sviluppato. DTSS è stato sviluppato continuamente nel corso del successivo decennio, ha dato origine a Multics, e quindi indirettamente a Unix.