Googles AI kan nu lip läsa bättre än människor efter att ha sett tusentals timmar av TV

0
233

Forskare från Googles AI division DeepMind och University of Oxford har använt artificiell intelligens för att skapa de mest exakta läppavläsning program någonsin. Med hjälp av tusentals timmar TV-film från BBC, forskare tränat ett neuralt nätverk för att kommentera videofilmer med 46.8 procents noggrannhet. Det kanske inte verkar så imponerande vid en första — särskilt jämfört med AI noggrannhet priser när transkribera ljud — men testade på samma film, en professionell människa lip-läsare kunde bara för att få det rätta ordet 12,4 procent av tiden.

Forskningen följer liknande arbete publiceras som en separat grupp vid University of Oxford tidigare denna månad. Med hjälp av metoder, dessa forskare har kunnat skapa en läppavläsning program som heter LipNet att uppnås till 93,4 procent noggrannhet i testerna, jämfört till 52,3 procent mänsklig noggrannhet. Men LipNet var bara testat på speciellt inspelade materialet som används volontärer sett standardiserad meningar. Som jämförelse DeepMind programvara — känd som “Titta, Lyssna, Delta, och Spell” — testades på långt mer utmanande bilder; transkribera naturliga, oskriven samtal från BBC politik visar.

DeepMind s AI-program var utbildad på 5 000 timmar TV

Mer än 5 000 timmar film från TV-program, inklusive Partis frågestunden, och Världen Idag, användes för att träna DeepMind “Titta, Lyssna, Delta, och Spell” – programmet. Videos som ingår 118,000 skillnaden meningar och vissa 17,500 unika ord, jämfört med LipNet test databas av video på bara 51 unika ord.

DeepMind s forskare föreslår att programmet skulle kunna ha en mängd applikationer, inklusive att hjälpa hörselskadade människor att förstå konversationer. Det kan också användas för att indikera tyst filmer, eller tillåta dig att kontrollera digitala assistenter som Siri eller Alexa med bara munnen ord till en kamera (praktiskt om du använder programmet public).