Onderzoekers van de Deezer-het ontwikkelen van een AI systeem dat in staat is van het koppelen van bepaalde nummers met stemmingen en intensiteiten, gespot door VentureBeat. Het werk is beschreven in een onlangs gepubliceerd papier op Arxiv.org met de titel “Music Mood-Detectie Gebaseerd op Audio-Teksten Met een Diepe Neurale netwerken.”
Voor het bepalen van een lied muzikale stemming, wordt het team beschouwd als zowel het audio-signaal en de teksten. Om te beginnen, ze gevoed audio-signalen in een neuraal netwerk, samen met de modellen die het reconstrueren van de taalkundige context van woorden. Dan, om te leren hoe om te bepalen de sfeer van een song, ze gebruikt de Million Song Dataset (MSD), die een verzameling metagegevens voor meer dan 1 miljoen hedendaagse liedjes. In het bijzonder, zij het Laatst gebruikt is.fm dataset, die kent id ‘ s naar tracks van meer dan 500.000 unieke tags. Veel van deze tags zijn de stemming, en meer dan 14.000 engelse woorden van deze tags zijn gegeven twee schalen beoordelingen te correleren aan hoe positief of negatief een woord is, en ook hoe rustig of energetische staat een woord in om het systeem te trainen.
De Million Song Database slechts metagegevens bevat voor de liedjes, niet de nummers zelf, zodat het team daarna gekoppelde al deze informatie te Deezer uit de catalogus van het gebruik van id ‘ s zoals titels van nummers, namen van artiesten, albums, titels. Ongeveer 60 procent van de resulterende dataset (18,644 tracks) werd gebruikt voor het trainen van de AI, waarbij de rest wordt gebruikt om te valideren en verder testen van het systeem.
Dit soort werk wordt gezien als een manier om verder te kijken naar hoe de muziek, de teksten en de stemming correleren
In het einde, zo concludeerden de onderzoekers dat de AI is beter in staat om te detecteren hoe rustig of een energieke song was beter dan de meer traditionele benaderingen die geen gebruik van AI, en speelde ongeveer hetzelfde als het ging om het opsporen of een song was positief of negatief. “Het lijkt erop dat deze toename van de prestaties is het resultaat van de capaciteit van ons model te onthullen en het gebruik van mid-level correlaties tussen audio en teksten, met name als het gaat om het voorspellen van valence,” de onderzoekers schreven in de krant.
Het is opgemerkt in het papier dat om echt de invloed van deze werken, een “database met gesynchroniseerde tekst en audio zou een grote hulp zijn om verder te gaan.” Als een dergelijke database bestond, het team gelooft dat ze kunnen meer fijn bepalen van de dubbelzinnigheid in de sfeer van de tracks, zoals “in sommige gevallen kunnen er aanzienlijke verschillen tussen luisteraars” (mensen zullen het misschien niet altijd eens zijn over wanneer een nummer is positief of negatief is, bijvoorbeeld). Uiteindelijk is de onderzoekers denken dat dit soort werk wordt gezien als een manier om verder te kijken naar hoe de muziek, de teksten en de stemming correleren, evenals de mogelijkheid van het hebben van diep leren modellen in staat zijn om te sorteren door middel van en vinden de niet-gelabelde data in een hoog volume.
Dit is verre van de eerste keer Deezer heeft geprobeerd om het gebruik van AI om te sorteren door middel van muziek. Vorig jaar nam een uitdaging op Sónar festival naar het antwoord op de vraag, “Wanneer een gebruiker thuis is, hoe kunnen we ontdekken de context waarin ze naar muziek luisteren en muziek aanbevelen zin?” Deezer kan in theorie het gebruik van dit type van machine learning in de toekomst automatisch sorteren en catalog muziek — niet alleen met metagegevens, zoals de artiest of het genre van muziek, maar iets meer genuanceerd, zoals stemming.