Microsoft, nuovo record: riconoscimento Vocale, IA ora trascrive così come un essere umano

0
154

0

microsoftgarage-screenshot-2.jpg

Microsoft sta applicando il suo lavoro di riconoscimento vocale in servizi come il Discorso del Traduttore, che mira a tradurre le presentazioni in tempo reale per multilingual pubblico.

Immagine: Microsoft

Un riconoscimento vocale, sistema sviluppato dai ricercatori Microsoft ha raggiunto una parola un tasso di errore pari umana trascrittori.

Microsoft, che lunedì ha annunciato che il suo discorso colloquiale-sistema di riconoscimento colpire un tasso di errore del 5,1 per cento, corrispondente al tasso di errore umano professionista trascrittori.

Microsoft l’anno scorso pensato che la sua 5,9% tasso di errore aveva raggiunto umani, la parità, ma IBM ricercatori hanno sostenuto che il traguardo sarebbe necessario un sistema di raggiungere un tasso del 5,1 per cento, leggermente inferiore alla sua parola più basso tasso di errore del 5,5 per cento.

IBM studio di umani trascrittori permesso a molti esseri umani di ascoltare la conversazione più di una volta, e raccolto il frutto delle migliori trascrittore.

Come lo scorso anno di prova, il sistema di Microsoft è stata misurata contro il Centralino corpus, di un dataset costituito da circa 2.400 i due lati delle conversazioni telefoniche tra sconosciuti con NOI accenti.

Il test prevede la trascrizione delle conversazioni tra le persone a discutere di una vasta gamma di argomenti, dallo sport alla politica, ma le conversazioni sono più di natura formale.

A differenza dello scorso anno di prova di Microsoft non prova il suo sistema contro un altro set di dati chiamato CallHome, che comprende aperte e più casual conversazioni tra i membri della famiglia. CallHome tassi di errore sono più del doppio di Centralino test per entrambi gli esseri umani e le macchine.

Ancora, Microsoft non riesce a radersi 12% di sconto l’anno scorso Centralino risultati dopo tweaking la sua neurale acustico e modelli di linguaggio.

“Abbiamo introdotto un ulteriore CNN-BLSTM (convolutional rete neurale combinato con bidirezionale lungo la memoria a breve termine) modello per una migliore modellazione acustica. Inoltre, il nostro approccio di combinare le previsioni più modelli acustici ora fa, sia il telaio/senone e parola i livelli”, ha detto Xuedong Huang, un technical fellow presso Microsoft.

“Inoltre, abbiamo rafforzato il sistema di riconoscimento del modello di linguaggio utilizzando l’intera storia di una finestra di sessione di prevedere ciò che è probabile che il prossimo a venire, in modo efficace, permettendo il modello per adattarsi all’argomento e al contesto locale di una conversazione.”

Nonostante la nuova pietra miliare, Microsoft riconosce macchine ancora trovare difficoltà a riconoscere i diversi accenti e parlando di stili, e non effettuano anche in condizioni di rumore.

E anche se Microsoft è stata in grado di formare i propri modelli per rilevare un contesto di trascrivere una conversazione in modo più accurato, ha una strada da percorrere prima di poter treno di un computer per capire il significato di una conversazione.

Google all’inizio di quest’anno ha annunciato i suoi sistemi raggiunto il 4,9 per cento parola tasso di errore, anche se non si sa cosa prova utilizzato.

Relativi copertura

IBM vs Microsoft: ‘La parità’ di riconoscimento vocale registrare le variazioni di nuovo le mani

Intelligenza artificiale possono fare molte cose meglio di esseri umani, ma il riconoscimento vocale non è uno di loro. Di sicurezza.

Google progressi nella computer vision porta a Google Obiettivo funzione

Al Google I/O, CEO di Sundar Pichai ha detto che la computer vision ha raggiunto un “punto di flesso”, con tassi di errore inferiore a quello di un umano.

Microsoft nuovo traguardo? Mondo più basso tasso di errore nel riconoscimento vocale

Microsoft ha leapfrogged IBM per richiedere un test significativo risultato per la ricerca macchine per comprendere meglio il parlato di esseri umani.

0