Forskere ved Deezer har utviklet en AI-system som kan knytte bestemte sanger med stemninger og intensiteter, som oppdaget av VentureBeat. Arbeidet er beskrevet i en nylig utgitt på papir Arxiv.org med tittelen “Musikk Humør Deteksjon Basert på Lyd Tekster Med Dype Neural Nets.”
Å finne en sang er musikalsk stemning, team vurdert både luminans og tekster. For å starte, de matet audio signaler i en nevrale nettverk, sammen med modeller som rekonstruere den språklige sammenhenger av ord. Så, å lære hvordan å finne ut stemningen på en sang, har de brukt Millioner Sang Dataset (MSD), som er en samling av metadata for over 1 million moderne sanger. Spesielt de som ble brukt Sist.fm er dataset, som tildeler identifikatorer til spor fra over 500 000 unike koder. Mange av disse kodene er stemningen-relatert, og over 14 000 engelske ord fra disse kodene ble gitt to skala rangeringer sammenstille til hvordan negative eller positive, et ord er, og også hvor rolig eller energisk et ord er i orden å trene systemet.
Million Sang Database bare inneholder metadata for sanger, ikke sanger selv, så laget da paret all denne informasjonen til Deezer katalog med identifikatorer som sangtitler, artistnavn, og albumtitler. Om lag 60 prosent av den resulterende dataset (18,644 spor) ble brukt til å trene AI, mens resten ble brukt til å validere og videre teste systemet.
Denne typen arbeid er sett på som en måte for ytterligere å se på hvordan musikk, tekster, og stemningen korrelerer
I slutten, forskerne konkluderte med at AI var bedre i stand til å oppdage hvor rolig eller energiske en sang var bedre enn mer tradisjonelle tilnærminger som ikke bruke AI, og utført omtrent det samme når det kom til å oppdage om en sang var positive eller negative. “Det ser ut til at denne gevinsten av ytelse er et resultat av kapasiteten på vår modell for å avsløre og bruk mid-level sammenhenger mellom lyd og tekster, særlig når det gjelder å forutsi valence,” forskerne skrev i papir.
Det er bemerket i papir på at for å virkelig utnytte dette arbeidet, en “database med synkronisert tekst og lyd ville være til stor hjelp for å gå videre.” Hvis en slik database eksistert, team mener de kan mer detaljert bestemme tvetydigheten i humør av spor, som “i noen tilfeller kan det være betydelig variasjon mellom lyttere” (folk kanskje ikke alltid er enige om en låt som er positive eller negative, for eksempel). Til syvende og sist, mener forskerne at denne typen arbeid er sett på som en måte for ytterligere å se på hvordan musikk, tekster, og stemningen korrelerer, samt muligheten av å ha dybdekunnskap modeller være i stand til å sortere og finne umerket data i høyt volum.
Dette er langt fra første gang Deezer har forsøkt å bruke kunstig INTELLIGENS for å sortere gjennom musikk. Siste år, det tok på en utfordring på Sónar festival for å svare på spørsmålet “Når en bruker er hjemme, hvordan kan vi gjenkjenne den sammenhengen som de lytter til musikk og anbefale musikk tilsvarende?” Deezer kan teoretisk sett bruke denne type maskin læring i fremtiden for å automatisk sortere og katalogisere musikk — ikke bare med grunnleggende metadata, som navnet på artisten eller sjanger av musikk, men noe mer nyansert liker stemningen.