Il New York Times, e un gruppo di scrittori, citano OpenAI e Microsoft per violazione di copyright, consistente nella riproduzione di articoli (o di loro libri) per allenare la loro Intelligenza Artificiale e nel loro inserimento nell’output

– I –

Il NYT il 27 dicembre dà notizia di aver fatto causa per il saccheggio dei suoi articoli e materiali per allenare ChatGP e altri sistemi di AI e l’uso nell’output dai prompts degli utenti.

Offre pure il link all’atto di citazione. depositato presso il South. Dist. di NY il 27 dicembre 2023 , Case 1:23-cv-11195 .

Qui interessante è la decrizione del funzionamento della generative AI e del suo training, oltre alla storia di OpenAI che -contrariamente agli inizi (solo strategicamente open, allora vien da dire)- open adesso non lo è più , §§ 55 ss.: v. § 75 ss

Le condotte in violazione (con molti esempi reali -screenshot- delle prove eseguite dall’attore, spesso a colori: anzi, viene detto in altro articolo che l’Exhibit J contiene 100 esempi ; lo stesso sito in altro articolo offre il link diretto a questo allegato J) sono:

– Unauthorized Reproduction of Times Works During GPT Model Training,§ 83 ss

– Embodiment of Unauthorized Reproductions and Derivatives of Times Works in
GPT Models, § 98 ss

– Unauthorized Public Display of Times Works in GPT Product Outputs, § 102 ss;

-Unauthorized Retrieval and Dissemination of Current News, § 108 ss.

V. ora su Youtube  l’interessante analisi riga per riga della citazione svolta da Giovanni Ziccardi.

– II –

Giunge poi notizia di analoga iniziativa giudiziaria  (qui però come class action) promossa da scrittori USA. Vedasi la citazione depositata il 19 dicembre 2023 al South. Dist. di NY da Alter, Bird, Branch ed altri contro più o meno gli stessi convenuti. I datasets per il training sono presi da Common Crawl, Webtext, Books1 and 2,  Wikipedia etc, § 72 (lo dice lo stesso OPenAI).

L’allegata modalità seguita per la violazione:

<<90. Defendants used works authored and owned by Plaintiffs in the training of their GPT models, and in doing so reproduced these works and commercially exploited them without a license.
91. While OpenAI and Microsoft have kept the contents of their training data secret, it is likely that, in training their GPT models, they reproduced all or nearly all commercially successful nonfiction books. As OpenAI investor Andreesen Horowitz has admitted, “large language models,” like Defendants’ GPT models, “are trained on something approaching the entire corpus of the written word,” a corpus that would of course include Plaintiffs’ works.
92. The size of the Books2 database—the “internet based books corpora” that
Defendants used to train GPT-3, GPT-3.5, and possibly GPT-4 as well—has led commentators to believe that Books2 is comprised of books scraped from entire pirated online libraries such as LibGen, ZLibrary, or Bibliotik. Shawn Presser, an independent software developer, created an open-source set of training data called Books3, which was intended to give developers, in his words, “OpenAI-grade training data.” The Books3 dataset, similar in size to Books2, was built
from a corpus of pirated copies of books available on the site Bibliotik. Works authored and owned by Plaintiffs Alter, Bird, Branch, Cohen, Linden, Okrent, Sancton, Sides, Schiff, Shapiro, Tolentino, and Winchester are available on Books3, an indication that these works were also likely included in the similarly sized Books2>>.

Vedremo l’esito (magari già la comparsa di costitzione, speriamo)

– III –

“Chat GPT Is Eating the World” pubblica una utile lista delle cause pendenti in USA azionanti il copyright contro l’uso in AI (sono 15 , quasi tutte class actions).

Ci trovi anche il fascicolo processuale della sopra cit. NYT Times c. Microsoft-OpenAI (v. DOCKET,  link diretto qui e qui nei vari Exhibit l’elenco dell’enorme quantità di articoli copiati)

– IV –

Resta però da vedere se allenare  i LARGE LANGUAGE MODELS con materiale protetto ne determini realmente una “riproduzione” sotto il profilo tecnico/informatico: o meglio se tecnicamente si dia un fenomeno che possa giuridicamente qualificarsi “riproduzione”.     Kevin Bryan su X  dice di no ; Lemley-CAsey pure affermano la legittimità per policy reasons . Ma data la norma in vigore, si deve accertare se vi sia o meno riproduzione: in caso positivo, infatti, l’eventuale elaborazione creativa (tutto da vedere se ricorra e come vada giudicata la creatività) non può prescindere dal consenso dei titolari delle opere riprodotte.

Che queste AI richeidano di accedere a materialiper lo più protetti è com,prensibile: lo dice OpenAI (v. Dan Milmo 8 genn. 2023 nel Guardian). Ma non aiuta a risolvere detto dubbio tecnico-giuridico

La citazione in giudizio dell’associazione scrittori usa contro Open AI

E’ reperibile in rete (ad es qui) la citazione in giuidizio avanti il South. Dist. di New Yoerk contro Open AI per vioalzione di copyright proposta dalla importante Autorhs Guild e altri (tra cui scrittori notissimi) .

L’allenamento della sua AI infatti pare determini riproduzione e quindi (in assenza di eccezione/controdiritto) violazione.

Nel diritto UE l’art. 4 della dir 790/2019 presuppone il diritto  di accesso all’opera per  invocare l’eccezione commerciale di text and data mining:

<< 1. Gli Stati membri dispongono un’eccezione o una limitazione ai diritti di cui all’articolo 5, lettera a), e all’articolo 7, paragrafo 1, della direttiva 96/9/CE, all’articolo 2 della direttiva 2001/29/CE, all’articolo 4, paragrafo 1, lettere a) e b), della direttiva 2009/24/CE e all’articolo 15, paragrafo 1, della presente direttiva per le riproduzioni e le estrazioni effettuate da opere o altri materiali cui si abbia legalmente accesso ai fini dell’estrazione di testo e di dati.

2. Le riproduzioni e le estrazioni effettuate a norma del paragrafo 1 possono essere conservate per il tempo necessario ai fini dell’estrazione di testo e di dati.

3. L’eccezione o la limitazione di cui al paragrafo 1 si applica a condizione che l’utilizzo delle opere e di altri materiali di cui a tale paragrafo non sia stato espressamente riservato dai titolari dei diritti in modo appropriato, ad esempio attraverso strumenti che consentano lettura automatizzata in caso di contenuti resi pubblicamente disponibili online.

4. Il presente articolo non pregiudica l’applicazione dell’articolo 3 della presente direttiva>>.

Il passaggio centrale (sul se ricorra vioalzione nel diritto usa) nella predetta citazione sta nei §§ 51-64:

<<51. The terms “artificial intelligence” or “AI” refer generally to computer systems designed to imitate human cognitive functions.
52. The terms “generative artificial intelligence” or “generative AI” refer specifically to systems that are capable of generating “new” content in response to user inputs called “prompts.”
53. For example, the user of a generative AI system capable of generating images
from text prompts might input the prompt, “A lawyer working at her desk.” The system would then attempt to construct the prompted image. Similarly, the user of a generative AI system capable of generating text from text prompts might input the prompt, “Tell me a story about a lawyer working at her desk.” The system would then attempt to generate the prompted text.
54. Recent generative AI systems designed to recognize input text and generate
output text are built on “large language models” or “LLMs.”
55. LLMs use predictive algorithms that are designed to detect statistical patterns in the text datasets on which they are “trained” and, on the basis of these patterns, generate responses to user prompts. “Training” an LLM refers to the process by which the parameters that define an LLM’s behavior are adjusted through the LLM’s ingestion and analysis of large
“training” datasets.
56. Once “trained,” the LLM analyzes the relationships among words in an input
prompt and generates a response that is an approximation of similar relationships among words in the LLM’s “training” data. In this way, LLMs can be capable of generating sentences, p aragraphs, and even complete texts, from cover letters to novels.
57. “Training” an LLM requires supplying the LLM with large amounts of text for
the LLM to ingest—the more text, the better. That is, in part, the large in large language model.
58. As the U.S. Patent and Trademark Office has observed, LLM “training” “almost
by definition involve[s] the reproduction of entire works or substantial portions thereof.”4
59. “Training” in this context is therefore a technical-sounding euphemism for
“copying and ingesting.”
60. The quality of the LLM (that is, its capacity to generate human-seeming responses
to prompts) is dependent on the quality of the datasets used to “train” the LLM.
61. Professionally authored, edited, and published books—such as those authored by Plaintiffs here—are an especially important source of LLM “training” data.
62. As one group of AI researchers (not affiliated with Defendants) has observed,
“[b]ooks are a rich source of both fine-grained information, how a character, an object or a scene looks like, as well as high-level semantics, what someone is thinking, feeling and how these states evolve through a story.”5
63. In other words, books are the high-quality materials Defendants want, need, and have therefore outright pilfered to develop generative AI products that produce high-quality results: text that appears to have been written by a human writer.
64. This use is highly commercial>>