LipNet, il software che legge il labiale con una precisione da fantascienza

LipNet: gli scienziati dell’Università di Oxford stanno sviluppando un software che è in grado di leggere le labbra con un’accuratezza del 93.4%. Un tale risultato sorpassa di misura quello dei professionisti più esperti.

I ricercatori hanno dichiarato che il programma LipNet ha un potenziale pratico enorme e che potrebbe servire per il miglioramento degli apparecchi acustici, per consentire conversazioni in luoghi rumorosi oppure per aggiungere i dialoghi ai film muti. Ma potrebbe avere anche applicazioni più sospette come, ad esempio, la sorveglianza di massa dei cittadini che parlano tra loro in pubblico oppure consentire a chiunque di captare conversazioni private.

I ricercatori, che sono in stretta collaborazione con la divisione di Google impegnata nello studio dell’intelligenza artificiale – che si chiama DeepMind – hanno allenato il software con più di 30.000 video di test che avevano come oggetto di analisi una serie di frasi. Ad alcuni movimenti delle labbra il software è stato in grado di far corrispondere alcune delle parole che venivano pronunciate.
In seguito, i ricercatori hanno fatto delle prove con altri video e LipNet ha dimostrato un’accuratezza pari al 93.4% un risultato strepitoso se messo a confronto con quelli ottenuti da altri programmi per la lettura del labiale e il 52.3% ottenuto dai test su studenti audiolesi.

LipNet è in grado di comprendere le frasi intere e ciò consente la trasposizione in parole per mezzo di contesti, anziché la decifrazione di fonemi o parole individualmente. E il software non ha bisogno che un video venga frammentato per poter essere processato.

Il software non è ancora pronto per il rilascio. La fase di test e di ricerca, per ora, ha coperto soltanto una determinata tipologia di filmati, nei quali le parole erano strutturate con set specifici: comandi, colori, proporzioni, lettere, digitazioni, avverbi, come ad esempio per una frase come “posiziona il blu in M 1 presto” e 34 differenti parlanti.

Al fine di consentirgli di comprendere frasi più complesse con un maggior numero di variabili, così come un o spettro più ampio di individui con diversi accenti tra loro, ci sarà bisogno di mettergli a disposizione un archivio di video ben più nutrito. Si tratta sempre del problema condiviso da chiunque si occupi di AI: i dati affinché possano essere rielaborati accuratamente e qualitativamente, devono essere offerti in quantitativi enormi.


LipNet, il software che legge il labiale con una precisione da fantascienza - Ultima modifica: 2016-11-11T09:57:28+00:00 da Francesco Marino

Giornalista esperto di tecnologia, da oltre 20 anni si occupa di innovazione, mondo digitale, hardware, software e social. È stato direttore editoriale della rivista scientifica Newton e ha lavorato per 11 anni al Gruppo Sole 24 Ore. È il fondatore e direttore responsabile di Digitalic

Recent Posts

Il pensiero di Papa Francesco su tecnologia e AI: l’eredità di un pontefice visionario

Nel momento in cui il mondo saluta Papa Francesco, riflettiamo sulla sua visione della tecnologia…

4 giorni ago

Luna IntuiCell, il cane robot che impara come un cucciolo: l’era del sistema nervoso digitale

La startup svedese IntuiCell ha sviluppato Luna, un robot quadrupede che non si affida a…

4 giorni ago

Trump firma l’ordine esecutivo per portare l’AI nelle scuole

Gli Stati Uniti lanciano un piano nazionale per introdurre l'IA nelle scuole. Opportunità, rischi e…

4 giorni ago

L’AI generativa entra nel design: ecco la piattaforma italiana che aggiorna l’esperienza d’arredo

Dexelance e Meridiani puntano sull’intelligenza artificiale per aggiornare il processo tra idea progettuale e visualizzazione…

4 giorni ago

BlueIT Innovation Hub: il luogo dove l’innovazione prende forma, mettendo la persona al centro

BlueIT ha inaugurato il suo Innovation Hub nel cuore della Campagna Cremasca. La sede è…

6 giorni ago

Asus Zenbook A14: il laptop AI-ready che pesa meno di un chilo

Lo Zenbook A14 è il nuovo ultraleggero firmato ASUS: design in Ceraluminum™, prestazioni AI con…

1 settimana ago

Digitalic © MMedia Srl

Via Italia 50, 20900 Monza (MB) - C.F. e Partita IVA: 03339380135

Reg. Trib. Milano n. 409 del 21/7/2011 - ROC n. 21424 del 3/8/2011