LipNet, il software che legge il labiale con una precisione da fantascienza

LipNet: gli scienziati dell’Università di Oxford stanno sviluppando un software che è in grado di leggere le labbra con un’accuratezza del 93.4%. Un tale risultato sorpassa di misura quello dei professionisti più esperti.

I ricercatori hanno dichiarato che il programma LipNet ha un potenziale pratico enorme e che potrebbe servire per il miglioramento degli apparecchi acustici, per consentire conversazioni in luoghi rumorosi oppure per aggiungere i dialoghi ai film muti. Ma potrebbe avere anche applicazioni più sospette come, ad esempio, la sorveglianza di massa dei cittadini che parlano tra loro in pubblico oppure consentire a chiunque di captare conversazioni private.

I ricercatori, che sono in stretta collaborazione con la divisione di Google impegnata nello studio dell’intelligenza artificiale – che si chiama DeepMind – hanno allenato il software con più di 30.000 video di test che avevano come oggetto di analisi una serie di frasi. Ad alcuni movimenti delle labbra il software è stato in grado di far corrispondere alcune delle parole che venivano pronunciate.
In seguito, i ricercatori hanno fatto delle prove con altri video e LipNet ha dimostrato un’accuratezza pari al 93.4% un risultato strepitoso se messo a confronto con quelli ottenuti da altri programmi per la lettura del labiale e il 52.3% ottenuto dai test su studenti audiolesi.

LipNet è in grado di comprendere le frasi intere e ciò consente la trasposizione in parole per mezzo di contesti, anziché la decifrazione di fonemi o parole individualmente. E il software non ha bisogno che un video venga frammentato per poter essere processato.

Il software non è ancora pronto per il rilascio. La fase di test e di ricerca, per ora, ha coperto soltanto una determinata tipologia di filmati, nei quali le parole erano strutturate con set specifici: comandi, colori, proporzioni, lettere, digitazioni, avverbi, come ad esempio per una frase come “posiziona il blu in M 1 presto” e 34 differenti parlanti.

Al fine di consentirgli di comprendere frasi più complesse con un maggior numero di variabili, così come un o spettro più ampio di individui con diversi accenti tra loro, ci sarà bisogno di mettergli a disposizione un archivio di video ben più nutrito. Si tratta sempre del problema condiviso da chiunque si occupi di AI: i dati affinché possano essere rielaborati accuratamente e qualitativamente, devono essere offerti in quantitativi enormi.


LipNet, il software che legge il labiale con una precisione da fantascienza - Ultima modifica: 2016-11-11T09:57:28+00:00 da Francesco Marino

Giornalista esperto di tecnologia, da oltre 20 anni si occupa di innovazione, mondo digitale, hardware, software e social. È stato direttore editoriale della rivista scientifica Newton e ha lavorato per 11 anni al Gruppo Sole 24 Ore. È il fondatore e direttore responsabile di Digitalic

Recent Posts

Apple vuole trasformare l’iPhone in un medico virtuale con AI: Project Mulberry

Il progetto con intelligenza artificiale, chiamato Mulberry, è il prossimo tassello dell’ecosistema di benessere di…

2 ore ago

Meta AI su WhatsApp: il chatbot che ti ascolta, ti risponde… e a volte ti confonde

Meta AI, l’intelligenza artificiale di Zuckerberg, sbarca su WhatsApp tra entusiasmo, sospetti e qualche risata…

3 ore ago

Addio Blue Screen of Death, Microsoft introduce la schermata nera

Microsoft sostituisce la celebre schermata Blue Screen of Death con una versione nera, più moderna…

4 ore ago

Aggiornamento iOS 18.4: tutte le novità (e cosa manca ancora in Italia)

Scopri tutte le novità di iOS 18.4, l’aggiornamento che rivoluziona l’esperienza su iPhone con AI,…

6 giorni ago

Batterie Nucleari: la rivoluzione che promette 50 anni di autonomia

Le batterie nucleari innovative promettono 50 anni di autonomia senza ricarica. Scopri come funziona, i…

6 giorni ago

Nuovo generatore di immagini di ChatGPT: la modifica delle foto fa impazzire il Web

Il nuovo generatore di immagini di ChatGPT con la nuova funzione di modifica immagini rivoluziona…

1 settimana ago

Digitalic © MMedia Srl

Via Italia 50, 20900 Monza (MB) - C.F. e Partita IVA: 03339380135

Reg. Trib. Milano n. 409 del 21/7/2011 - ROC n. 21424 del 3/8/2011