Microsoft ‘ s nieuwe plaat: spraakherkenning AI nu getranscribeerd als een mens

0
102

0

microsoftgarage-screenshot-2.jpg

Microsoft is de toepassing van zijn werk op het gebied van spraakherkenning in diensten zoals Spraak-Vertaler, die doelstellingen te vertalen presentaties in real-time voor meertalige publiek.

Afbeelding: Microsoft

Een speech-recognition systeem dat is ontwikkeld door Microsoft-onderzoekers heeft bereikt word error rate on par zijn met de menselijke transcribers.

Microsoft maandag bekend dat de immi-erkenning systeem op een fout tarief van 5,1 procent, wat overeenkomt met het percentage fouten van professionele menselijke transcribers.

Microsoft vorig jaar dacht de 5,9 procent error rate bereikt de menselijke pariteit, maar de IBM-onderzoekers betoogd dat een mijlpaal zou vereisen dat het systeem het bereiken van een tarief van 5,1 procent, iets lager dan het laagste woord fout tarief van 5,5 procent.

De IBM-studie van de menselijke transcribers toegestaan verschillende mensen om te luisteren naar het gesprek meer dan eens, en pakte het resultaat van de beste transcriber.

Als met vorig jaar test, Microsoft ‘ s system werd gemeten tegen de Centrale corpus, een dataset bestaande uit ongeveer 2400 twee-zijdig telefoon gesprekken tussen vreemdelingen met ONS accenten.

De test omvat het transcriberen van gesprekken tussen mensen praten over een groot aantal onderwerpen, van sport tot politiek, maar de gesprekken zijn meer formeel van aard.

In tegenstelling tot vorig jaar test Microsoft niet in de test zijn systeem tegen een andere dataset genoemd CallHome, waarin open en informele gesprekken tussen de familieleden. CallHome fout tarieven meer dan het dubbele van de Telefooncentrale tests voor zowel mensen als machines.

Nog steeds, Microsoft heeft met het scheren van 12 procent uit van vorig jaar Telefooncentrale resultaten na het afstellen van de neurale-netto akoestische en taal-modellen.

“We introduceerden een extra CNN-BLSTM (convolutional neurale netwerk in combinatie met bidirectionele lange-korte-termijn-geheugen) model voor verbeterde akoestische modellering. Bovendien is onze benadering te combineren voorspellingen van meerdere akoestische modellen nu doet op zowel het frame/senone en word niveaus,” zei Xuedong Huang, een technische collega bij Microsoft.

“Bovendien hebben we versterkt de herkenning van de taal van het model met behulp van de hele geschiedenis van een dialoog sessie te voorspellen wat waarschijnlijk de volgende komen, effectief, waardoor het model aan te passen aan het onderwerp en de lokale context van een gesprek.”

Ondanks de nieuwe mijlpaal, Microsoft erkent machines vind het nog steeds moeilijk te herkennen verschillende accenten en sprekende stijlen, en niet goed presteren in lawaaierige omstandigheden.

En hoewel Microsoft in staat was om te trainen zijn modellen voor het detecteren van een context te schrijven is een gesprek beter gezegd, het heeft een weg te gaan voordat het kan de trein een computer om daadwerkelijk te begrijpen wat de betekenis is van een gesprek.

Google heeft eerder dit jaar aangekondigd haar systemen bereikt een 4,9 procent word error rate, maar het is niet bekend wat voor testen gebruikt.

Verwante dekking

IBM vs Microsoft: ‘het Menselijk pariteit’ spraakherkenning wijzigingen in de record opnieuw de handen

Kunstmatige intelligentie kan heel veel beter dan de mens, maar spraakherkenning is niet een van hen. Nog niet.

Google ‘ s stappen in computer vision leidt tot Google Lens functie

Op Google I/O, CEO Sundar Pichai zei dat computer vision heeft bereikt, een “buigpunt,” met fout tarieven lager dan die van een mens.

Microsoft ‘ s nieuwste mijlpaal? Laagste foutfrequentie op het gebied van spraakherkenning

Microsoft heeft leapfrogged IBM om te beweren dat een belangrijke test-resultaten in de zoektocht naar machines om spraak beter verstaan dan de mens.

0