Rättsligt avgörande för AI väntar

katarina Olsson9 januari 2024215

Traditionell media kämpar för sin överlevnad. De traditionella medierna har dock en svår uppförsbacke att få framgång i stämningar..

Förra veckan stämde New York Times Microsoft och OpenAI, i vilka Microsoft har investerat 13 miljarder dollar, för brott mot upphovsrätten.

Times hävdar att Microsofts genAI-baserade Copilot och OpenAI:s ChatGPT, som driver Copilot, tränades med hjälp av miljontals artiklar utan Times tillstånd.

Times hävdar vidare att dessa verktyg (och Microsofts sökmotor Bing) ”nu konkurrerar med nyhetsbyrån som en källa till tillförlitlig information”.

Utöver det kräver ansökan att Microsoft och OpenAI förstör både de datamängder som används för att träna verktygen och själva verktygen.

Detta är inte den första stämningsansökan som hävdar att AI-företag brutit mot upphovsrätten när de byggde sina chatbots, och det kommer inte att bli den sista. Men det är Big Kahuna – Times är bland de mest kända tidningarna i världen och guldstandarden inom journalistik.

Och deras drag kan visa sig vara en av de mest inflytelserika stämningarna under dator- och internetåldern, kanske den mest inflytelserika.

Det beror på att resultatet mycket väl kan avgöra framtiden för generativ AI.

Vem har rätt här? Är Times bara ute efter pengar och använder stämningen för att förhandla fram ett bättre rättighetsavtal med Microsoft och OpenAI för användning av deras artiklar? Eller står Times upp för alla upphovsrättsinnehavares rättigheter, oavsett hur små de är, mot AI-titanernas angrepp?

Vad innehåller stämningsansökan?

För att få en bättre förståelse för vad det handlar om ska vi först ta en närmare titt på den underliggande tekniken och själva stämningen. GenAI:s chatbots som Copilot och ChatGPT tränas på stora språkmodeller (LLM) – som inkluderar enorma mängder data – för att vara effektiva och användbara. Ju mer data, desto bättre. Och lika viktigt är datakvaliteten. Ju bättre datakvalitet, desto bättre genAI-resultat.

Microsoft och OpenAI använder innehåll som finns tillgängligt på internet för att träna sina verktyg, oavsett om innehållet är offentligt, öppen källkod eller upphovsrättsskyddat material; allt slukas av genAI:s stora, hungriga gap. Det innebär att miljoner och åter miljoner artiklar från Times och otaliga andra publikationer används för träning.

Microsoft och OpenAI hävdar att dessa artiklar och allt annat upphovsrättsskyddat material omfattas av doktrinen om skälig användning. Fair use är ett oerhört komplicerat och förvirrande juridiskt begrepp, och det finns en aldrig sinande ström av stämningar som avgör vad som är fair use och vad som inte är det. Det är mycket öppet för tolkning.

Det är därför Times stämningsansökan är så viktig. Den kommer att avgöra om alla genAI-verktyg, inte bara de som ägs av Microsoft och OpenAI, kan fortsätta att tränas på upphovsrättsskyddat material. (Upphovsrättsskyddat innehåll är mycket värdefullt eftersom det tenderar att vara det bredaste och mest exakta. Och det finns mycket av det).

Rättvis användning av upphovsrättsskyddat material faller i allmänhet inom två kategorier: kommentarer och parodier. Användningen av materialet måste vara ”transformativ”, med andra ord; det får inte bara vara en kopia av det upphovsrättsskyddade materialet. Det måste omvandla det på något sätt.

Om någon till exempel skriver en recension av en roman kan de citera flera rader för att göra en poäng. I en nyhetsrapport kan man med hjälp av rättvis användning sammanfatta en artikel om en medicinsk forskningsrapport och kortfattat citera från den.

Microsoft och OpenAI hävdar att deras användning av upphovsrättsskyddat material är transformativ. De hävdar att chatbotarnas resultat omvandlar det ursprungliga innehållet till något annat. Times hävdar att det inte sker någon verklig omvandling, att det Microsoft och OpenAI gör är ren stöld.

De hävdar att företagen inte bara stjäl Times innehåll, utan även deras publik, och tjänar miljarder dollar på det. Människor kommer inte att ha något behov av att läsa Times vare sig online eller i tryck om de kan få all tidningens information gratis från en chatbot istället, hävdas det i stämningsansökan.

Detta stycke sammanfattar Times påståenden: ”Det finns inget ’transformativt’ i att använda The Times innehåll utan betalning för att skapa produkter som ersätter The Times och stjäl publik från den.

Eftersom resultatet av svarandenas GenAI-modeller konkurrerar med och nära efterliknar de indata som används för att träna dem, är kopiering av Times verk för det ändamålet inte rättvis användning.”

Stämningsansökan erbjuder gott om bevis för sina påståenden. De mest flagranta exemplen är många fall där ChatGPT direkt plagierar artiklar, inklusive en Pulitzer-Prize-vinnande, femdelad 18-månaders undersökning av rovlån i New York Citys taxibransch. I stämningsansökan hävdas följande:

”OpenAI hade ingen roll i skapandet av detta innehåll, men kommer ändå med minimal uppmaning att recitera stora delar av det ordagrant.”

OpenAI å sin sida anklagade på måndagen Times för att avsiktligt ha manipulerat uppmaningar för att få ChatGPT att rabbla upp innehållet.