Efter ett par års rabalder kring AI-genererad text och bild, har intresset under 2024 allt mer förskjutits mot ljud – både röster och musik. För företagen i AI-industrin är skillnaden mellan dessa uttryck inte så viktiga. Det är samma statistiska modeller som används för att identifiera mönster i ett enormt råmaterial. Det är i stort sett alltid piratkopierat: företagen dammsuger nätet på rådata och använder den utan att fråga om lov.
Ju mer mänsklig skriven text som samlas in, desto bättre blir modellerna på att härma mänskligt skrivande. Så skapades den välkända chattroboten ChatGPT. Om man i stället använder inspelat tal som råmaterial, får man en AI-modell som kan efterlikna mänskliga röster. På så vis hoppas nu talboksföretag snart kunna slippa betala lön till inläsare, medan yrkeskriminella hittar nya upplägg för telefonbedrägerier där offren luras av en anhörigs röst.
Vill du läsa vidare? Fortsätt genom att bli prenumerant. Om du redan är det, logga in här. 👇
Prenumerera och läs direkt!
Samtliga prenumerationer ger direkt tillgång till alla artiklar på webben samt alla exklusiva poddavsnitt. Varje torsdag får du dessutom veckans nummer i din mejlkorg eller brevlåda.
Vänsterperspektiv behövs. Ge Flamman extra skjuts med en stödprenumeration!