Forskere fra Google ‘ s AI divisjon DeepMind og University of Oxford har brukt kunstig intelligens til å lage den mest nøyaktige lip-leser programvare noensinne. Ved hjelp av tusenvis av timer med TV-opptak fra BBC, forskere trent en nevrale nettverk til å kommentere video-opptakene med 46,8 prosent nøyaktighet. Som kanskje ikke virker så imponerende ved første — spesielt i forhold til AI nøyaktighet når transkribere lyd — men testes på samme opptakene, en profesjonell menneskelig lip-leser var bare i stand til å få det rette ordet 12,4 prosent av tiden.
Forskningen følger lignende arbeid publisert en egen gruppe ved University of Oxford tidligere denne måneden. Ved hjelp av relaterte teknikker, disse vitenskapsmann var i stand til å skape en lip-leser program kalt LipNet som oppnås 93.4% nøyaktighet i testene, sammenlignet med 52.3 prosent menneskelige nøyaktighet. Imidlertid, LipNet ble bare testet på spesielt-innspilte opptak som brukes frivillige snakker formelaktige setninger. Ved sammenligningen, DeepMind er software — kjent som “Se, Lytte, Delta og Spell” — ble testet på langt mer utfordrende opptakene; transkribere naturlig, unscripted samtaler fra BBC politikk viser.
DeepMind er AI-programmet ble trent på 5000 timer på TV
Mer enn 5000 timer med opptak fra TV-serier, inkludert Newsnight, Spørsmål om Tid, og Verden i Dag, ble brukt til å trene DeepMind er “Se, Lytte, Delta og Spell” – programmet. Videoene inkludert 118,000 forskjellen setninger og rundt 17.500 unike ord, i forhold til LipNet ‘ s test database av video på kun 51 unike ord.
DeepMind er forskere tyder på at programmet har en rekke applikasjoner, inkludert å hjelpe hørselshemmede folk forstår samtaler. Det kan også brukes til å kommentere lydløs filmer, eller tillate deg å styre digitale assistenter som Siri eller Alexa av bare mouthing ord til et kamera (nyttig hvis du bruker programmet i det offentlige).