0

Microsoft ist mit seiner Arbeit in der Spracherkennung in Dienste wie Sprache Übersetzer, die Ziele zu übersetzen Präsentationen in Echtzeit für mehrsprachiges Publikum.
Bild: Microsoft
Eine speech-recognition-system, entwickelt von Microsoft-Forschern hat erzielt einen Wort-Fehler-rate auf Augenhöhe mit menschlichen transskribenten.
Microsoft am Montag angekündigt, dass seine conversational speech-recognition-system trifft eine Fehlerquote von 5,1 Prozent, Abgleich der Fehler-rate der professionelle menschliche Schreibkräfte geeignet.
Microsoft im letzten Jahr fand seine 5,9 Prozent Fehlerquote erreicht hatte, menschliche Parität, aber die IBM-Forscher argumentiert, dass Meilenstein erfordern würde, die ein system erreichen eine rate von 5,1 Prozent, etwas niedriger als die niedrigste word-error-rate von 5,5 Prozent.
IBM-Studie des menschlichen transskribenten erlaubt mehrere Menschen hören das Gespräch mehr als einmal, und hob das Ergebnis der besten transcriber.
Wie bei der letztjährigen test, das Microsoft-system war, gemessen an der Switchboard-Korpus, einem dataset, bestehend aus etwa 2.400 beidseitigen Telefongespräche zwischen fremden mit UNS Akzente.
Der test umfasst Transkriptionen von Gesprächen zwischen Menschen diskutieren eine Reihe von Themen von Sport bis Politik, aber die Gespräche sind eher formaler Natur.
Anders als im letzten Jahr-test von Microsoft nicht getestet haben, sein system gegen einen anderen Datensatz aufgerufen CallHome, die umfasst offene und lockere Gespräche zwischen den Familienmitgliedern. CallHome-Fehler-rate mehr als verdoppeln Schalttafel-tests für Menschen und Maschinen.
Dennoch, Microsoft hat es geschafft, sich zu rasieren 12 Prozent vom letzten Jahr Switchboard Ergebnisse nach tweaking seine neural-net-Akustik und Sprache-Modelle.
“Wir stellten eine zusätzliche CNN-BLSTM (convolutional neural network, kombiniert mit bidirektionalen long-short-term memory) – Modell für eine verbesserte akustische Modellierung. Darüber hinaus ist unser Ansatz zum kombinieren von Vorhersagen aus mehreren akustischen Modelle jetzt nicht so an den Rahmen/senone-und Wort-Ebene”, sagte Xuedong Huang, technical fellow bei Microsoft.
“Außerdem werden wir verstärkt die Erkennung der Sprache-Modell, indem die ganze Geschichte von einer dialog-Sitzung, um vorherzusagen, was höchstwahrscheinlich als Nächstes kommt, so dass effektiv das Modell zur Anpassung an das Thema und lokalen Kontext einer Konversation.”
Trotz des neuen Meilenstein Microsoft erkennt an Maschinen finde es immer noch schwer zu erkennen, verschiedene Akzente und sprechen Stile, und nicht gut in lauten Bedingungen.
Und obwohl Microsoft in der Lage war zu trainieren, seine Modelle zu erkennen, einen Zusammenhang zu transkribieren eines Gesprächs genauer an, es hat einen Weg zu gehen, bevor Sie trainieren können, einen computer, um tatsächlich zu verstehen, den Sinn des Gesprächs.
Google Anfang dieses Jahres angekündigt, seine Systeme erzielt 4,9 Prozent, word error rate, obwohl es ist nicht bekannt, was es testen verwendet.
Verwandte coverage
IBM vs Microsoft: “die Menschliche Parität” Spracherkennung aufzeichnen änderungen, die Hände wieder
Künstliche Intelligenz kann viele Dinge besser als der Mensch, aber die Spracherkennung ist nicht einer von Ihnen. Noch.
Google Fortschritte in der computer vision führt zu Google-Lens-Funktion
Bei der Google I/O, CEO Sundar Pichai sagte, dass der computer vision erreicht hat, ein “Wendepunkt”, mit Fehler-raten niedriger als bei einem Menschen.
Microsofts neueste Meilenstein? Weltweit niedrigste Fehlerrate bei der Spracherkennung
Microsoft hat leapfrogged IBM zu behaupten, ein signifikantes Testergebnis bei der Suche nach Maschinen, die Rede zu verstehen, besser als der Mensch.
0