Forskere fra Google ‘ s AI division DeepMind og University of Oxford har anvendt kunstig intelligens til at skabe de mest præcise læbe-læser software nogensinde. Ved hjælp af tusindvis af timers TV-optagelser fra BBC, forskere uddannet et neuralt netværk til at anmærke video-optagelser med 46.8% nøjagtighed. Det er måske ikke synes, der imponerende ved første, især i forhold til AI nøjagtighed, når overførsel af lyd—, men testes på samme optagelser, en professionel menneskelig læbe-læser kun var i stand til at få det rigtige ord 12,4 procent af tiden.
Forskningen ligger i forlængelse af tilsvarende værker udgivet i en særskilt gruppe ved University of Oxford tidligere i denne måned. Brug af relaterede teknikker, disse videnskabsmand var i stand til at skabe en læbe-læsning program kaldet LipNet, der opnås på 93,4 procent nøjagtighed i test, i forhold til 52,3 procent menneskelige nøjagtighed. Men LipNet blev kun testet på specielt-optagelser, der bruges frivillige, der taler stereotyp sætninger. Ved sammenligning, DeepMind ‘ s software — kendt som “Se, Lytte, Deltage og Stave” — blev testet på langt mere udfordrende optagelser; overførsel af naturlige, uskrevne samtaler fra BBC politik viser.
DeepMind ‘ s AI-programmet blev uddannet på 5.000 timers TV
Mere end 5.000 timers optagelser fra TV-shows, herunder Newsnight, Spørgsmål Tid, og Verden i Dag, blev brugt til at træne DeepMind “Se, Lytte, Deltage og Stave” – program. De videoer, der indgår 118,000 forskel sætninger og nogle 17,500 unikke ord, i forhold til LipNet ‘ s test database af video af bare 51 unikke ord.
DeepMind ‘ s forskere tyder på, at programmet kunne have et væld af applikationer, herunder hjælpe hørehæmmede med at forstå samtaler. Det kunne også bruges til at annotere stumfilm, eller give dig mulighed for at kontrollere digitale assistenter som Siri eller Alexa ved blot puttet ord på et kamera, (handy hvis du bruger programmet i det offentlige).