Att göra det här albumet med AI “kändes som att vandra i en enorm labyrint”

0
183

Rädslan är över och det roliga kan börja. Det är så jag tenderar att tänka på kreativa ansträngningar som involverar artificiell intelligens nuförtiden. Vi har gått förbi, tror jag, hyperboliska påståenden om att AI gör mänsklig konst överflödig och kan nu njuta av alla de möjligheter som denna teknik ger. I det ljuset visar Shadow Planet – ett nytt album som gjorts som ett trevägssamarbete mellan två människor och AI – exakt vilken sorts kul man kan ha.

Shadow Planet är skapandet av författaren Robin Sloan, musikern Jesse Solomon Clark och Jukebox, ett maskininlärningsprogram gjort av OpenAI. Efter en direkt konversation på Instagram mellan Sloan och Clark om att starta ett band (som heter The Cotton Modules), började de två utbyta musikband. Clark, en erfaren kompositör, skickade frön av låtar till Sloan som matade in dem i Jukebox, som tränas på en enorm datauppsättning på 1,2 miljoner låtar och försöker autokomplettera allt ljud som den hör. AI-programmet, styrt av Sloan, byggde sedan på Clarks idéer, som Sloan skickade tillbaka till honom för att utveckla vidare.

OpenAI:s Jukebox-modell är tränad på 1,2 miljoner låtar för att producera sin egen musik

Slutresultatet av denna trevägshandel är Shadow Planet, ett stämningsfullt album där bitar av folksånger och elektroniska krokar dyker upp som mossbeklädda stockar från en suddig mosse av omgivande loopar och sönderfallande samplingar. Det är ett komplett album i och för sig: ett fickmusikaliskt universum att utforska.

Som Sloan förklarade för mig i en intervju via e-post är ljudet från Shadow Planet på många sätt ett resultat av begränsningarna hos Jukebox, som bara matar ut monoljud vid 44,1 kHz. “När jag gjorde det här albumet lärde jag mig att den här typen av AI-modell är absolut ett “instrument” du behöver lära dig att spela,” sa han till mig. “Det är i grunden en tuba! En mycket… märklig… och kraftfull… tuba…”

Det är den här typen av framväxande kreativitet, när maskiner och människor reagerar på begränsningar och fördelar i varandras programmering, som gör AI-konst så intressant. Tänk på hur utvecklingen av cembalo till piano påverkade musikstilar, till exempel, och som förmågan hos de senare att spela högt eller mjukt (snarare än cembalans enda fasta dynamik) skapade nya musikgenrer. Detta tror jag är vad som händer nu med en hel rad AI-modeller som formar kreativ produktion.

Du kan läsa min intervju med Sloan nedan och ta reda på varför arbetet med maskininlärning kändes för honom “som att vandra i en enorm labyrint.” Och du kan lyssna på Shadow Planet på Spotify, Apple Music, iTunes, Bandcamp eller på Sloan och Clarks webbplats.

Den här intervjun har redigerats lätt för tydlighetens skull

Hej Robin, tack för att du tog dig tid att prata med mig om det här albumet. Först och främst, berätta lite om vilket material Jesse skickade till dig för att starta detta samarbete? Var det originallåtar?

ja! Jesse är en kompositör för reklamfilmer, filmer och fysiska installationer – han skrev det generativa soundtracket som körs i besökscentret på Amazon's Spheres i Seattle. Så han är väl van vid att sitta ner och producera en massa musikaliska alternativ. Varje band jag fick från honom hade ett dussintal små “songlets” på sig, vissa bara 20-30 sekunder långa, andra några minuter, alla olika, alla åtskilda av lite tystnad. Så min första uppgift var alltid att lyssna igenom, bestämma vad jag gillade bäst och kopiera det till datorn.

Och sedan matade du in dem i ett AI-system. Kan du berätta lite om det programmet? Vad var det och hur fungerar det?

Jag använde OpenAIs Jukebox-modell, som de tränade på ~1,2 miljoner låtar, 600K av dem på engelska; den fungerar på råljudsamplingar. Det är en stor del av överklagandet för mig; Jag tycker också att de MIDI-centrerade AI-systemen är… artiga? De respekterar rutnätet för mycket! De provbaserade systemen (som jag har använt tidigare, i olika inkarnationer, inklusive för att göra musik till ljudboken i min senaste roman) är krispigare och mer flyktiga, så jag gillar dem bättre.

För att prova Jukebox-modellen använde jag min egen anpassade kod. Tekniken som OpenAI beskriver i sin publikation är mycket som “Hej, Jukebox, spela mig en låt som låter som The Beatles”, men jag ville kunna “konstiga det”, så min samplingskod tillåter mig att specificera många olika artister och genrer och interpolera mellan dem, även om de inte har något gemensamt.

“Det var, om jag ska vara ärlig, en extremt långsam och irriterande process”

Och det är bara upplägget. Själva provtagningsprocessen är interaktiv. Jag skulle alltid börja med ett “frö” från ett av Jesses band, vilket skulle ge modellen en riktning, en känsla att följa. I huvudsak skulle jag säga till modellen: “Jag skulle vilja ha något som är en blandning av genre X och Y, ungefär som artisterna A och B, men det måste också följa den här introduktionen: <Jesses musik spelas> ”

Jag skulle också, i vissa fall, specificera texter. Sedan skulle jag gå cirka åtta till 10 sekunder åt gången, generera tre alternativ vid varje steg – datorn churnar i fem till 10 minuter, KUL – sedan spela upp dem, välja ett och fortsätta framåt … eller ibland avvisa alla tre och börja om. Till slut skulle jag ha ett prov som var mellan 60-90 sekunder långt, och jag skulle skriva ut det på tejp.

Det var, om jag ska vara ärlig, extremt långsam och irriterande process, men resultaten var så intressanta och suggestiva att jag alltid var motiverad att fortsätta!

Vad tyckte Jesse om materialet du skickade till honom?

Han understryker att det ofta var MYCKET svårt att arbeta med materialet. Konstiga instrument skulle komma upp från ingenstans, eller nyckeln skulle förändras på ett konstigt sätt, etc. Men jag tror att det också var en del av det roliga, och anledningen till att göra det här projektet överhuvudtaget: varje prov jag skickade till honom var en pussel att lösa.

I slutändan var hans arbete både lyhört – “hur stödjer jag det här sampla, hjälper det att lysa” – och transformativt – “vilken typ av låt ska det här vara?” Det är uppenbart på alla låtarna, men ett tydligt exempel är “Magnet Train”, där Jesse ansträngde sig för att visa upp och stödja vokalframträdandet (konstigt och skumt och bra) och sedan utökade det med element som tyder på “train-ness” – den chugging slagverk, etc.

Och exakt hur finslipade du in på just detta ljud, tror du? Vad drev dig i den här riktningen?

Åh, det var definitivt mediets korn. Tidigt sa jag till Jesse att även om modellen kunde producera ljud vid 44,1 kHz så var den bara i mono. Hans svar var: “Coolt! Låt oss använda monokassetter då.” Och musiken han skickade tillbaka till mig var också mono. I sitt sista produktionspass lade han till lite stereobredd, bara så att låtarna inte var helt låsta i mitten, men det är ett ganska “smalt” album i allmänhet, och det är helt på grund av AI:s begränsning, som vi bestämde oss för. att omfamna och förlänga istället för att slåss. Detsamma gäller för lo-fi, korniga, “radio inställd på en spökkanal”-ljud – helt och hållet en artefakt av hur modellen producerar musik, som vi förstärkte ytterligare genom att studsa musiken till band så många gånger.

< iframe src="https://open.spotify.com/embed/track/2H61s7xW1IxjWnmiuT0Xzl?utm_source=generator" width="100%" height="80" frameborder="0" allowfullscreen="" allow="autoplay; urklipp -skriva; krypterad media; helskärm; bild-i-bild">

Så, i de färdiga låtarna som vi hör, hur stor andel av musiken är gjord av AI och vad av människa? Är det ens möjligt att göra den skillnaden?

Det varierar verkligen mycket från låt till låt, och sanningen är att vi i vissa fall tappade spåret! Jag skulle börja med en fras från Jesse, lägga den genom min provtagningsprocess, skicka tillbaka den till honom, han skulle lägga till ett lager eller utöka den, skicka tillbaka den till mig, jag skulle lägga tillbaka den genom provtagningsprocessen… vad är det för mänsklig/AI-nedbrytning där? Allt blandas och blandas i lager.

Det finns en uppdelning som är tydlig: när som helst du hör något som låter som en mänsklig röst, oavsett om det är att uttala texter tydligt eller ett slags ooh-ing och ahh-ing, den rösten genereras av AI.

“den här typen av AI-modell är absolut ett “instrument” du behöver lära dig att spela”

När jag gjorde det här albumet lärde jag mig att den här typen av AI-modell absolut är ett “instrument” du behöver lära dig att spela. Och jag har kommit att tro att analogi är mycket mer användbar och generativ än som “AI-medkompositör” eller “automatisk AI-artist” eller vilken annan analogi du kanske har hört eller kan föreställa dig. Det är i princip en tuba! En mycket… märklig… och kraftfull… tuba…

Haha, eller hur! Jag har pratat med en hel del artister som använder maskininlärningsmodeller för att göra låtar eller böcker, och de pratar ofta om det dynamiskamellan dem och AI – om det till exempel pressade dem i en viss riktning. Kändes det överhuvudtaget så här för dig när du utforskade vilken musik Jukebox kunde ge dig?

Jag älskar den här frågan, och här är varför: tidigare har jag varit ganska skeptisk/kritisk till de “stora [AI]-modellerna som tränats på allt”, även när de har blivit framträdande. Det här är en klass som inkluderar GPT-3, Jukebox, CLIP, VQGAN, etc. Det är mycket tydligt att detta tillvägagångssätt ger kraftfulla resultat, men jag har alltid tyckt att det var mer kreativt intressant att ta ansvar för din egen datauppsättning, förstå dess sammansättning som en viktiga kreativa beslut, etc. Och jag tror fortfarande att det är sant, till viss del…

MEN!

“det har känts som att vandra i en enorm labyrint eller en död stad”

Upplevelsen av att använda Jukebox vände mig verkligen på det här. För mig har det känts som att vandra i en enorm labyrint eller en död stad: enorm, full av gränder och arkader. Till och med nu, efter att ha använt det så länge, har jag ingen aning om vad som fortfarande väntar där inne, vad som kan hittas och utföras. Uppenbarligen förråder jag det faktum att jag har spelat för många rollspel här … men verkligen! Det är känslan, och det är VÄLDIGT roligt.

Med det i åtanke, vad tror du då att det här albumet med Jesse lärde dig om framtiden för AI och kreativitet? Vad tror du dessa system kommer att göra i framtiden?

AI-tekniker kan göra en hel massa olika saker för olika sorters artister, såklart, men ang. denna specifika kategori, den generativa modellen som kan producera ny musik, nya ljud. Det verkar HELT klart för mig att dessa är på väg att bli en ny sorts synthesizer eller elgitarr. Jag tror att berättelsen i stort sett kommer att vara likartad — de kommer att gå från forskningsprojekt till nyhet (vilket är där vi är nu) till verktyg för begynnande virtuoser (det är spännande att tänka på att komma till den punkten!) till vanliga deltagare i alla/varje studio.