Nyheter 2 maj, 2024

Bakom AI-musiken döljer sig den mänskliga handen

Den nya musikappen Udio kan skapa trovärdiga pastischer på musik som redan har skapats. Men det är alltjämt människan som står för kreativiteten.

Efter ett par års rabalder kring AI-genererad text och bild, har intresset under 2024 allt mer förskjutits mot ljud – både röster och musik. För företagen i AI-industrin är skillnaden mellan dessa uttryck inte så viktiga. Det är samma statistiska modeller som används för att identifiera mönster i ett enormt råmaterial. Det är i stort sett alltid piratkopierat: företagen dammsuger nätet på rådata och använder den utan att fråga om lov.

Ju mer mänsklig skriven text som samlas in, desto bättre blir modellerna på att härma mänskligt skrivande. Så skapades den välkända chattroboten ChatGPT. Om man i stället använder inspelat tal som råmaterial, får man en AI-modell som kan efterlikna mänskliga röster. På så vis hoppas nu talboksföretag snart kunna slippa betala lön till inläsare, medan yrkeskriminella hittar nya upplägg för telefonbedrägerier där offren luras av en anhörigs röst.

Den senaste AI-hajpen handlar om musik. En ny tjänst vid namn Udio, ännu så länge kostnadsfri, skapar musik på begäran. Det räcker med en enkel beskrivning i text av hur man vill att musiken ska låta. Om man vill ha sång så kan man välja mellan att skriva texten själv, eller låta Udio generera en helt ny låttext.

Många imponeras. En tongivande tekniksajt lyfter i sin rubrik fram Udios förmåga att skapa ”realistisk musik”. Formuleringen är tankeväckande. ”Realism” har länge betecknat vissa riktningar inom litteratur och bildkonst, men tills nu har begreppet i stort sett aldrig använts om musik.

Vad skulle det ens betyda att musik är realistisk? Troligen bara att den låter till förväxling lik sådan musik som människor redan har gjort. Vilket också är hela syftet med denna typ av AI-modeller: att skapa pastischer, till lägsta möjliga kostnad.

En pastisch är ett verk som följsamt efterliknar en äldre stil. Detta är också allt som exempelvis Udio kan göra: musiken genereras utifrån mönster som hittats i den musik som företaget använt som råmaterial. Förvisso går det också att få Udio att kombinera flera stilar vilket kan leda till oväntade resultat. Men allt måste utgå från skrivna instruktioner. Detta betyder att en AI-modell av detta slag faktiskt inte bara exploaterar otaliga musiker, låtskrivare och musikproducenter. Det musikaliska råmaterialet hade inte varit kommersiellt intressant om det inte hade kopplats till ord som beskriver hur musiken låter. Det vill säga de insatser som gjorts av allt ifrån musikkritiker till alldeles vanliga människor som taggar sina spellistor med olika genrebeteckningar. Det är dessa som har upprättat de associationer mellan ord och musik som nu exploateras av företag som Udio.

Med dessa associationer följer också musikaliska stereotyper, som enkelt låter sig utforskas genom appen. När jag ber om ”rysk musik”, levereras pastischer på symfonisk orkestermusik. Om jag däremot skriver in ”ukrainsk musik” i rutan, levererar Udio mest olika former av folkrock. Låttexterna är på ukrainska, men melodierna och instrumenteringen doftar snarare irländskt än slaviskt – vilket nog skvallrar om slagsidor i det råmaterial som AI-modellen tränats på.

”Svensk musik” ger mest urvattnad genomsnittspop, där sångaren ofta låter som en kuslig hybrid av Ulf Lundell och Lars Winnerbäck. Låttexterna tycks ofta skjuta över målet i sitt markerande av svenskhet: ”Dansa som vinden, skogar så fria. När vi delar en fika, eller när vi blir utan.”

Sådant kan såklart ses som barnsjukdomar. Många absurditeter lär slipas bort i kommande versioner av Udio. Om ett år kommer musiken som genereras säkerligen att vara ännu mer ”realistisk”, oavsett vad man lägger i det begreppet. Men detta ska inte tolkas som att Udio är ett ”exempel på kraften i exponentiell utveckling”, vilket nyligen påstods av Aftonbladets musikskribent Håkan Steen. Inga AI-modeller kan nämligen bli bättre än sin träningsdata.

ChatGPT har redan tränats på Wikipedia, Reddit, bloggar och piratbibliotek. Om framtida versioner ska bli ännu bättre räcker det inte med en exponentiellt ökad beräkningskraft. Det krävs också betydligt mer rådata i form av mänskligt producerad text, vilket för AI-industrin nu börjar bli en bristresurs. Särskilt med tanke på att en allt större del av den text som hamnar på webben nu redan är AI-genererad. Om nya AI-modeller ska tränas på resultatet av äldre AI-modeller blir resultatet en typ av inavel. Enligt datavetaren Jathan Sadowski kommer detta att leda till allt fler groteska överdrifter i slutprodukterna, på samma sätt som det inavlade kungahuset Habsburg drabbades av allt fler degenerativa sjukdomar.

Det är hela syftet med denna typ av AI-modeller: att skapa pastischer, till lägsta möjliga kostnad.

Även en tjänst som Udio hotas i förlängningen av musikalisk inavel. Dess tillgängliga råmaterial – det vill säga den musik som ligger ute på plattformar som Youtube – kommer i allt högre grad att redan vara AI-genererad. Därtill kommer att de tillgängliga ord som beskriver musiken i allt högre grad ha valts av en AI som tränats på att känna igen befintliga genrer, till skillnad från den allt mer sällsynta musikjournalistik som utgör ett mer värdefullt råmaterial.

Vad en AI-modell av detta slag kan skapa är en pastischmusik som, inom givna ramar, är precis tillräckligt ”realistisk” för att användas som bakgrundsmusik eller i reklam. Ur ett kommersiellt perspektiv har generativ AI fördelen att man varken behöver betala lön till en musikproducent eller någon upphovsrättslig ersättning. Ur ett konstnärligt perspektiv ser saken annorlunda ut. En möjlighet är att vi går mot en tudelad musikmarknad: å ena sidan AI-genererat skval, å andra sidan den musik som människor faktiskt väljer att lyssna på och som förblir en eftertraktad råvara för AI-industrin.

Rasmus Fleischer Läs mer från skribenten