Il New York Times, e un gruppo di scrittori, citano OpenAI e Microsoft per violazione di copyright, consistente nella riproduzione di articoli (o di loro libri) per allenare la loro Intelligenza Artificiale e nel loro inserimento nell’output

– I –

Il NYT il 27 dicembre dà notizia di aver fatto causa per il saccheggio dei suoi articoli e materiali per allenare ChatGP e altri sistemi di AI e l’uso nell’output dai prompts degli utenti.

Offre pure il link all’atto di citazione. depositato presso il South. Dist. di NY il 27 dicembre 2023 , Case 1:23-cv-11195 .

Qui interessante è la decrizione del funzionamento della generative AI e del suo training, oltre alla storia di OpenAI che -contrariamente agli inizi (solo strategicamente open, allora vien da dire)- open adesso non lo è più , §§ 55 ss.: v. § 75 ss

Le condotte in violazione (con molti esempi reali -screenshot- delle prove eseguite dall’attore, spesso a colori: anzi, viene detto in altro articolo che l’Exhibit J contiene 100 esempi ; lo stesso sito in altro articolo offre il link diretto a questo allegato J) sono:

– Unauthorized Reproduction of Times Works During GPT Model Training,§ 83 ss

– Embodiment of Unauthorized Reproductions and Derivatives of Times Works in
GPT Models, § 98 ss

– Unauthorized Public Display of Times Works in GPT Product Outputs, § 102 ss;

-Unauthorized Retrieval and Dissemination of Current News, § 108 ss.

V. ora su Youtube  l’interessante analisi riga per riga della citazione svolta da Giovanni Ziccardi.

– II –

Giunge poi notizia di analoga iniziativa giudiziaria  (qui però come class action) promossa da scrittori USA. Vedasi la citazione depositata il 19 dicembre 2023 al South. Dist. di NY da Alter, Bird, Branch ed altri contro più o meno gli stessi convenuti. I datasets per il training sono presi da Common Crawl, Webtext, Books1 and 2,  Wikipedia etc, § 72 (lo dice lo stesso OPenAI).

L’allegata modalità seguita per la violazione:

<<90. Defendants used works authored and owned by Plaintiffs in the training of their GPT models, and in doing so reproduced these works and commercially exploited them without a license.
91. While OpenAI and Microsoft have kept the contents of their training data secret, it is likely that, in training their GPT models, they reproduced all or nearly all commercially successful nonfiction books. As OpenAI investor Andreesen Horowitz has admitted, “large language models,” like Defendants’ GPT models, “are trained on something approaching the entire corpus of the written word,” a corpus that would of course include Plaintiffs’ works.
92. The size of the Books2 database—the “internet based books corpora” that
Defendants used to train GPT-3, GPT-3.5, and possibly GPT-4 as well—has led commentators to believe that Books2 is comprised of books scraped from entire pirated online libraries such as LibGen, ZLibrary, or Bibliotik. Shawn Presser, an independent software developer, created an open-source set of training data called Books3, which was intended to give developers, in his words, “OpenAI-grade training data.” The Books3 dataset, similar in size to Books2, was built
from a corpus of pirated copies of books available on the site Bibliotik. Works authored and owned by Plaintiffs Alter, Bird, Branch, Cohen, Linden, Okrent, Sancton, Sides, Schiff, Shapiro, Tolentino, and Winchester are available on Books3, an indication that these works were also likely included in the similarly sized Books2>>.

Vedremo l’esito (magari già la comparsa di costitzione, speriamo)

– III –

“Chat GPT Is Eating the World” pubblica una utile lista delle cause pendenti in USA azionanti il copyright contro l’uso in AI (sono 15 , quasi tutte class actions).

Ci trovi anche il fascicolo processuale della sopra cit. NYT Times c. Microsoft-OpenAI (v. DOCKET,  link diretto qui e qui nei vari Exhibit l’elenco dell’enorme quantità di articoli copiati)

– IV –

Resta però da vedere se allenare  i LARGE LANGUAGE MODELS con materiale protetto ne determini realmente una “riproduzione” sotto il profilo tecnico/informatico: o meglio se tecnicamente si dia un fenomeno che possa giuridicamente qualificarsi “riproduzione”.     Kevin Bryan su X  dice di no ; Lemley-CAsey pure affermano la legittimità per policy reasons . Ma data la norma in vigore, si deve accertare se vi sia o meno riproduzione: in caso positivo, infatti, l’eventuale elaborazione creativa (tutto da vedere se ricorra e come vada giudicata la creatività) non può prescindere dal consenso dei titolari delle opere riprodotte.

Che queste AI richeidano di accedere a materialiper lo più protetti è com,prensibile: lo dice OpenAI (v. Dan Milmo 8 genn. 2023 nel Guardian). Ma non aiuta a risolvere detto dubbio tecnico-giuridico