
På sin årlige Build-utviklerkonferanse tirsdag kunngjorde Microsoft nye funksjoner for Azure AI Speech-tjenesten som forbedrer stemmeaktivert, generativ AI-drevet apputvikling.
Azure AI Speech blir allerede brukt for “en rekke brukstilfeller, inkludert samtaleanalyse (lyd, tekst), medisinsk transkripsjon (lyd, syn, tekst), teksting (lyd/video, transkripsjon, oversettelse) og chatbots (lyd, GPT) )," Microsoft sa i utgivelsen. Tjenesten har mange funksjoner til dags dato, inkludert å konvertere lyd til teksttekster for en sending eller trekke ut adressene som er nevnt i en telefonsamtale.
Også: Microsoft Build er denne uken – her er hva du kan forvente, hvordan du kan se, og hvorfor jeg er spent
Et høydepunkt i OpenAIs GPT-4o-avsløring forrige uke var en forbedret stemmemodus, som fokuserte på den forbedrede kvaliteten på stemmen som ble gitt til programmets svar. Microsoft løper for å følge med, og kunngjorde at de gjør Personal Voice generelt tilgjengelig.
Funksjonen lar brukere "lage og bruke sine egne AI-stemmer for ulike applikasjoner, for eksempel taleassistenter, taleoversettelse og opprettelse av videoinnhold," utgivelsen forklart.
En annen ny funksjon er taleanalyse, nå tilgjengelig i forhåndsvisning. Tilgjengelig i Azure AI Studio, Adobes utviklingsmiljø, er det ment å adressere det selskapet kaller det “myke” analyse av telefonsamtaler eller andre lydkilder. Et mykt element i en samtale kan være semantisk analyse, eller hvordan den som ringer ser ut til å føle seg, som antagelig er mer subtil enn innholdet i selve samtalen.
Semantisk analyse kan oppdage detaljer som “graden av empati”. vist, deltakernes engasjement og styrken til argumentene eller til og med forutsi mulige samtaleflyter," utgivelsen forklarer.
I en transkripsjon av en samtale, for eksempel, kan seksjoner merkes med en vurdering av hver høyttalers setning som “positiv”," "negativ" eller "nøytral." Du kan sjekke ut en interaktiv demo her.