Bakom AI-musiken döljer sig den mänskliga handen

Efter ett par års rabalder kring AI-genererad text och bild, har intresset under 2024 allt mer förskjutits mot ljud – både röster och musik. För företagen i AI-industrin är skillnaden mellan dessa uttryck inte så viktiga. Det är samma statistiska modeller som används för att identifiera mönster i ett enormt råmaterial. Det är i stort sett alltid piratkopierat: företagen dammsuger nätet på rådata och använder den utan att fråga om lov.

Ju mer mänsklig skriven text som samlas in, desto bättre blir modellerna på att härma mänskligt skrivande. Så skapades den välkända chattroboten ChatGPT. Om man i stället använder inspelat tal som råmaterial, får man en AI-modell som kan efterlikna mänskliga röster. På så vis hoppas nu talboksföretag snart kunna slippa betala lön till inläsare, medan yrkeskriminella hittar nya upplägg för telefonbedrägerier där offren luras av en anhörigs röst.

Rasmus Fleischer

Ekonomihistoriker och författare.

Prenumerera och läs direkt!

Rasmus Fleischer

Flammans veckobrev

Flammans veckobrev