0

Microsoft er at anvende sit arbejde i talegenkendelse i tjenester, såsom Tale, Oversætter, som har til formål at lave præsentationer i realtid til multilingual publikum.
Billede: Microsoft
En stemmegenkendelse system, der er udviklet af Microsoft forskere har opnået et ord fejlprocent på lige fod med menneskelige afskrivere.
Microsoft på mandag meddelte, at dets konversation-recognition system ramte en fejlprocent på 5,1 procent, matchende fejlprocenten af professionelle menneskelige afskrivere.
Microsoft sidste år troede, at dens 5.9% fejlprocent havde opnået menneskelige paritet, men IBM-forskere hævdede, at milestone ville kræve et system, opnå en rente på 5,1 procent, hvilket er lidt lavere end det laveste ord fejlprocent på 5,5 procent.
IBM ‘ s undersøgelse af den menneskelige afskrivere tilladt flere mennesker til at lytte til den samtale, der mere end én gang, og tog et resultat af de bedste transcriber.
I lighed med sidste års test, Microsoft ‘ s system blev målt mod den Omstilling corpus, et datasæt, der består af cirka 2.400 to-sidet telefon samtaler mellem fremmede med OS accenter.
Testen indebærer overførsel af samtaler mellem mennesker diskuterer en række emner, lige fra sport til politik, men de samtaler, der er af mere formel karakter.
I modsætning til sidste års test Microsoft ikke teste sit system mod et andet datasæt, kaldet CallHome, som omfatter open-ended og mere uformelle samtaler mellem familiemedlemmer. CallHome fejlen er mere end dobbelt Tavle tests for både mennesker og maskiner.
Stadig, Microsoft formåede at barbere 12 procent fra sidste års Omstilling resultater efter tweaking sin neurale net modeller for akustik og sprog.
“Vi indført en ekstra CNN-BLSTM (convolutional neurale netværk kombineret med tovejs long-short-term memory) model for forbedret akustisk modellering. Derudover er vores tilgang til at kombinere forudsigelser fra flere akustiske modeller gør det nu på både rammen/senone og ord niveauer,” sagde Xuedong Huang, en technical fellow hos Microsoft.
“Desuden har vi styrket genkendelse af sproget model ved hjælp af den hele historie, en dialog session for at forudsige, hvad der er tilbøjelige til at komme næste, effektivt at lade modellen til at tilpasse sig til emnet og lokale kontekst i en samtale.”
På trods af den nye milepæl, Microsoft anerkender, maskiner stadig finder det svært at genkende forskellige accenter og taler stilarter, og ikke klarer sig godt i støjende omgivelser.
Og selv om Microsoft var i stand til at træne sine modeller til at påvise en sammenhæng med at transskribere samtale mere præcist, det er en vej at gå, før det kan træne en computer til rent faktisk at forstå betydningen af en samtale.
Google har tidligere i år meddelte, at dens systemer opnås en 4.9 procent ord fejlprocent, selv om det ikke vides, hvilke test der anvendes.
Relaterede dækning
IBM vs Microsoft: “Menneskelige paritet’ talegenkendelse registrere ændringer hænder igen
Kunstig intelligens kan gøre mange ting bedre end mennesker, men talegenkendelse er ikke en af dem. Endnu.
Googles skridt i computer vision fører til Google Objektiv funktion
På Google i/O, CEO Sundar Pichai sagde, at computer-vision har nået et “vendepunkt” med fejlprocenter, der er lavere end et menneskes.
Microsoft ‘ s nyeste milepæl? Verdens laveste fejlprocent i talegenkendelse
Microsoft har leapfrogged IBM til at kræve en betydelig test resultat i the quest for maskiner til at forstå tale bedre end mennesker.
0