Forscher bei Deezer haben eine entwickelte KI-system in der Lage assoziieren bestimmte songs mit Stimmungen und Intensitäten, entdeckt von VentureBeat. Die Arbeit ist beschrieben in einem neu veröffentlichten Papier auf Arxiv.org mit dem Titel “Musik-Stimmung-Erkennung auf Basis der Audio-Texte Mit Tiefe Neuronale Netze.“
Um zu bestimmen, der einen song die musikalische Stimmung, das team berücksichtigt sowohl das audio-signal und die Texte. Um zu beginnen, Sie gefüttert audio-Signale in einen neuronalen Netzwerks, zusammen mit Modellen, die die Rekonstruktion der sprachlichen Kontexte der Wörter. Dann, zu lehren, wie zu bestimmen, ist die Stimmung von einem Lied, Sie verwendet die Million Song Dataset (MSD), die eine Sammlung von Metadaten, die für mehr als 1 Millionen Euro zeitgenössischen songs. Insbesondere verwendeten Sie Letzte.fm – dataset, das weist Bezeichner tracks von über 500.000 unique tags. Viele dieser tags sind Stimmung und über 14.000 englischen Wörtern, die aus diesen tags wurden zweimal Skala ratings korrelieren, wie positiv oder negativ ein Wort ist, und auch, wie ruhig oder energisch ein Wort um Zug-system.
Die Millionen-Song-Datenbank enthält die Metadaten für die Lieder, nicht die Lieder selbst, so dass das team dann gepaart, all diese Informationen zu Deezer ‘ s Katalog mit Bezeichner wie song-Titel, Interpreten und album-Titel. Über 60 Prozent der daraus resultierende Datensatz (18,644 tracks) wurde verwendet, um den Zug der KI, der rest dient der Validierung und weitere Tests des Systems.
Diese Art von Arbeit wird als ein Weg gesehen, um weiter schauen zu, wie die Musik, die lyrics und die Stimmung korrelieren
Am Ende schlossen die Forscher, dass die KI war besser in der Lage zu erkennen wie ruhig oder energiegeladen war ein Lied besser als das eher traditionelle Ansätze, die nicht genutzt AI, und führte über die gleiche, wenn Sie kam, zu erkennen, ob ein song positiv oder negativ war. “Es scheint, dass dieser Gewinn an Leistung ist das Ergebnis der Fähigkeit, unser Modell zu enthüllen und die Verwendung mid-level-Korrelationen zwischen audio und Text, insbesondere wenn es um die Vorhersage Valenz,” die Forscher schrieben in das Papier.
Es ist darauf hingewiesen in dem Papier, dass, um wirklich nutzen Sie diese Arbeit, eine “Datenbank mit synchronisierten Texten und audio-wäre eine große Hilfe, um weiter zu gehen.” Wenn so eine Datenbank existiert, die Mannschaft glaubt, Sie könnte feiner bestimmen der Mehrdeutigkeiten in der Stimmung der tracks, wie “in einigen Fällen gibt es signifikante Unterschiede zwischen Hörer” (Menschen, die vielleicht nicht immer einig, wenn ein song positiv oder negativ ist, zum Beispiel). Letztlich, die die Forscher glauben, dass diese Art von Arbeit wird als ein Weg gesehen, um weiter schauen zu, wie die Musik, die lyrics und die Stimmung korrelieren, sowie die Möglichkeit der deep-learning-Modelle in der Lage sein, zu Sortieren, und finden Sie unbeschriftete Daten in hoher Lautstärke.
Dies ist weit von der ersten Zeit, Deezer versucht hat, AI verwenden, um zu Sortieren durch die Musik. Im letzten Jahr nahm die Herausforderung an, Sónar festival, die Frage zu beantworten, “, Wenn ein Benutzer zu Hause, wie können wir feststellen, dass der Kontext, in dem Sie Musik hören und empfehlen Musik entsprechend?” Deezer könnte theoretisch verwenden diese Art von Maschine learning in der Zukunft automatisch zu Sortieren und katalogisieren von Musik — nicht nur mit grundlegenden Metadaten, wie den Namen des Interpreten oder genre der Musik, aber etwas differenzierter, wie die Stimmung ist.