Microsofts nya rekord: taligenkänning AI nu transcribes liksom en människa

0
164

0

microsoftgarage-screenshot-2.jpg

Microsoft är att tillämpa sitt arbete i taligenkänning i sådana tjänster som Tal Översättare, som syftar till att översätta presentationer i realtid för flerspråkiga publik.

Bild: Microsoft

Ett tal-system för erkännande som utvecklats av Microsoft forskare har uppnått ett ord fel priser i nivå med de mänskliga avskrivare.

Microsoft på måndagen meddelade att konversera tal-system för erkännande hit en felfrekvens på 5,1 procent, matchande felprocenten av professionella mänskliga avskrivare.

Microsoft förra året trodde det 5,9 procent felprocenten hade uppnått mänsklig paritet, men IBM forskare hävdat att en milstolpe skulle kräva ett system för att uppnå en hastighet på 5,1 procent, något lägre än den lägsta ordet fel ränta på 5,5 procent.

IBM: s studie av mänskliga avskrivare accepteras flera människor för att lyssna till samtalet mer än en gång, och plockade resultatet av de bästa singeln.

Som med förra årets test, Microsofts system mättes mot centralen corpus, ett dataset bestående av ca 2400 dubbelsidig telefon samtal mellan främlingar med OSS accenter.

Testet innebär att transkribera samtal mellan människor som diskuterar en rad olika ämnen, allt från sport till politik, men samtal är mer av formell natur.

Till skillnad från förra årets test Microsoft inte testa sina system mot ett annat dataset som kallas CallHome, som omfattar öppen och mer informella samtal mellan familjemedlemmar. CallHome fel priser är mer än dubbelt Växel tester för både människor och maskiner.

Fortfarande, Microsoft lyckades till rakning 12 procent av förra årets Växel resultat efter justeringar dess neurala-net akustiska och språk modeller.

“Vi infört ett ytterligare CNN-BLSTM (convolutional neurala nätverk i kombination med dubbelriktad lång-short-term memory) modell för förbättrad akustisk modellering. Dessutom, vår strategi att kombinera förutsägelser från flera akustiska modeller nu gör den det på både ram/senone och ordet nivåer,” sade Xuedong Huang, en teknisk kolleger på Microsoft.

“Dessutom har vi stärkt identifierare språk modell genom att använda hela sin historia i en dialog session för att förutsäga vad som kommer att komma nästa, på ett effektivt sätt så att den modell för att anpassa sig till ämnet och lokala sammanhang i en konversation.”

Trots ny milstolpe, Microsoft erkänner maskiner som fortfarande tycker att det är tufft att känna igen olika accenter och tala stilar, och inte fungerar bra i bullriga förhållanden.

Och även om Microsoft kunde träna sina modeller för att upptäcka ett sammanhang för att transkribera samtal mer exakt, den har en bit att gå innan det kan utbilda en dator för att faktiskt förstå innebörden av en konversation.

Google tidigare i år meddelade sitt system uppnås en 4,9 procent word error rate, men det är inte känt vad som test för det som används.

Relaterade täckning

IBM vs Microsoft: “Mänskliga parity” för taligenkänning registrera förändringar händer igen

Artificiell intelligens kan göra många saker bättre än människor, men taligenkänning är inte en av dem. Men ändå.

Googles kliv i computer vision leder till att Google Objektiv funktion

På Google i/O, VD Sundar Pichai att datorn vision har nått en “brytpunkt,” med fel priser som är lägre än en människa.

Microsofts senaste milstolpe? Världens lägsta felprocenten i taligenkänning

Microsoft har leapfrogged IBM att göra anspråk på en betydande testresultat i strävan för maskiner att förstå tal bättre än människor.

0