Il diritto d’autore è una fattispecie giuridica ben precisa, appartenente al corpo del diritto privato, che…
… tutela le opere dell’ingegno di carattere creativo riguardanti le scienze, la letteratura, la musica, le arti figurative, l’architettura, il teatro, la cinematografia, la radiodiffusione e, da ultimo, i programmi per elaboratore e le banche dati, qualunque ne sia il modo o la forma di espressione.
https://www.treccani.it/enciclopedia/diritto-d-autore/
e risponde, in poche parole, all’esigenza di un autore di veder riconosciuta la paternità del proprio lavoro purché esso sia, appunto, proprio, ovvero nuovo e originale.
Da qualche tempo a questa parte si fa un gran parlare di come sia possibile tutelare il diritto d’autore anche nel caso in cui l’opera sia stata concepita da un particolare tipo di Intelligenza Artificiale: l’Intelligenza Artificiale Generativa (IAG, per gli amici) ovvero, da quella branca dell’IA, di cui ChatGPT è l’applicazione più conosciuta, capace di creare autonomamente degli artefatti, siano essi testo, immagini (foto e video), musica, software, il tutto in risposta a una richiesta digitata da un utente.
Il motivo principale di tale discussione è che essendo la creazione nata da un corpus di opere già esistenti (e quindi appartenenti ai rispettivi autori), essa altro non sia che un coacervo di scopiazzature. Passatemi la banalizzazione, in realtà, il prodotto finito di un’IAG ha dell’incredibile, ma questo lo vediamo tra poco.
Alcuni si spingono oltre e arrivano a immaginare il diritto del fruitore della creazione di sapere esattamente qual è stato il processo che ha portato a quel testo, immagine, musica. Con tanto di attribuzione dei conseguenti diritti, ça va sans dire.
C’è solo un piccolo intoppo: ahimé, ChatGPT & Friends non funzionano così.
Partiamo da un assunto: l’IAG non copia, elabora.
Per capire il senso dell’assunto, tocca fare un minimo di digressione sul processo di training di un modello di Intelligenza Artificiale Generativa che solitamente è costituito da una rete neurale (neural network), ovvero da uno schema ordinato composto da una serie di neuroni artificiali, ognuno dei quali viene attivato da un input e restituisce in uscita un output. Bene, allenare una tale struttura significa nient’altro che farle “imparare” un’enorme quantità di testi o documenti.
Quando parlo di enorme, intendo dire, a seconda dello scopo per cui l’IA è stata creata, una quantità nell’ordine di miliardi o addirittura di migliaia di miliardi di testi o di altri input.
E qui veniamo a un primo, controintuitivo, fatto: si potrebbe pensare che questo processo di ingestione (dall’inglese ingestion che è proprio la fase di sottomissione degli input al modello al fine di utilizzarli poi nella vera e propria fase di allenamento) si sostanzi nella memorizzazione da parte dell’IA di tutto ciò che le viene sottomesso. Niente di più errato; nel caso di un’IAG di testi scritti (come ChatGPT) quello che l’algoritmo salva in memoria, analizzando ogni singola parola di ogni singolo testo che le viene sottoposto, è la probabilità che, dato un certo argomento e considerando miliardi di altri parametri, tutti decisi dagli sviluppatori ex ante, ad esempio, alla parola “Pippo” segua la parola “Pluto”.
Divagazione: il che, fatemelo dire per deformazione professionale, se state usando un’AIG per aiutarvi a scrivere del software, più che una probabilità è una certezza. E la terza parola è “Paperino”. Fine divagazione.
Detto in altri termini, se ad esempio chiedeste all’IAG di elencarvi gli amici di Pippo, è statisticamente assai più probabile che la lista in risposta sia composta dai personaggi dell’universo Disney che non quella degli amici di Pippo Franco o di Pippo Baudo.

E questo succede proprio perché, durante il processo di training, il modello ha incontrato molte più volte la parola “Pippo” insieme agli amici di Topolinia che non in altri contesti. Quindi, il nostro ha imparato che è statisticamente molto probabile che, in assenza di altre specificazioni, la domanda si riferisca proprio al noto brachetto Disney.
La situazione cambia se nella richiesta specificassi che mi riferisco proprio al Pippo Nazionale: questo dettaglio, infatti, costringerà il software a seguire altre strade e a ricercare parole che siano relative allo storico presentatore televisivo. Dalla stessa conversazione…

La risposta sopra ci fa capire che le parole “Pippo” e “tv” all’interno del modello hanno un’associazione statisticamente più rilevante con “Pippo Baudo” che con il Pippo della Disney; l’algoritmo quindi ne deriva che io gli sto chiedendo una “lista di amici” di “Pippo Baudo” e mi fornisce la risposta statisticamente più efficace.
Importante è notare che qualsiasi sia la richiesta, non troveremo statisticamente mai nei meandri delle matrici dell’algoritmo, uno scritto dove è riportato esattamente quello che l’IA ci ha risposto, ma la produzione è tutta farina del suo sacco.
La parola statisticamente è la chiave di tutto questo discorso.
Per capire questo nuovo assunto, lasciamo un attimo da parte Disney e i presentatori RAI e scomodiamo Dante Alighieri. Scusi tanto, maestro.
In rete e non troverete milioni di documenti, libri, saggi, post, lettere, mail, murales, carte di formaggio dove sono riportati dei versi de La Divina Commedia.
A me, piacciono particolarmente questi:
“Fatti non foste a viver come bruti, ma per seguir virtute e canoscenza”.
Dante Alighieri, La Divina Commedia, Inferno – XXVI canto, v. 119
Se milioni di documenti contengono queste parole in questo esatto ordine, mentre in un solo documento la parola “virtute” è associata a tutt’altro contesto, alla richiesta “mi scrivi due endecasillabi con le parole bruti, seguir, virtute e canoscenza al loro interno?”, diventa chiaro come sia statisticamente certo che il risultato siano versi in qualche modo riconducibili alla penna del Sommo.

Questo non vuole dire che l’IA abbia scopiazzato Dante Alighieri: semplicemente, in modalità incrementale, ha riportato a video una parola successiva statisticamente legata alla precedente. La controprova arriva se specifico un po’ meglio la richiesta, dicendogli che in realtà io volevo due endecasillabi scritti in stile cyberpunk: cosa notiamo? Cambia il contesto, cambia l’atmosfera, cambiano le parole (ma non quelle che gli avevo chiesto di tenere).

Insomma, approcciandomi a questo post, tutto avrei immaginato, meno che avrei accostato Dante Alighieri a William Gibson.
Sono uno scienziato, devo andare dovunque mi portino i dati
Sheldon Cooper in Young Sheldon
E qui veniamo al cuore del problema discusso sopra, ovvero, sapere esattamente quali siano il procedimento e quindi le fonti che l’algoritmo ha utilizzato per arrivare alla risposta, al fine di darne compiuta evidenza al lettore.
Prendiamo ad esempio l’ultima conversazione degli endecasillabi: se chiediamo direttamente all’IAG come sia arrivata alle due coppie di versi, lei risponde così:

Impressionante, vero? Si potrebbero scrivere interi tomi sull’intelligenza artificiale solo esaminando parola per parola questa risposta e ciò che le sta dietro.
Quello che risalta, però, è che non cita alcun autore, ma scrive di aver fatto tutto da sé. E se gli chiedessimo se è effettivamente così?

Fermiamoci un attimo, altrimenti ci si perde.
Siamo partiti nel nostro discorso dicendo che l’IAG non copia, elabora e la risposta sopra, nella quale lei stessa “ammette” di aver usato diverse fonti letterarie e cinematografiche, non contraddice l’assunto iniziale, perché ancora una volta, data una domanda, il modello va a ricercare una parola successiva statisticamente relazionata alla precedente: “chi ti ha ispirato” è stato interpretato correttamente come “elencami le fonti che hai usato per” scrivere gli endecasillabi in stile classico e cyberpunk. Le parole “endecasillabi” e “classici” è assai probabile che siano relazionati alle parole “Dante”, “Petrarca”, “poesia”, così come “cyberpunk” è associato a Gibson e Blade Runner.
In altre parole, l’IA non ha riportato direttamente opere soggette al diritto d’autore, ma ha elaborato un output sulla base delle probabilità che la risposta alla domanda iniziale fosse statisticamente attinente.
Ora, riuscite a immaginare quale titanica opera di allenamento sia stata necessaria per far riconoscere a un computer uno stile poetico di quasi mille anni fa, usarne (correttamente) i tratti distintivi e produrre uno scritto “originale” che li contenesse?
Chiedersi ad ogni passaggio quale sia stato il ragionamento che l’ha portato fin là non è solo un’opera proibitiva, è inutile, perché l’unico metro utilizzato è quello statistico.
Delusi?
Non dovete esserlo! La partita è tutt’altro che chiusa e molti esperti nei rispettivi campi toccati dalla tematica, da quello tecnologico a quello giuridico, dall’economico al letterario, dall’etico all’artistico, si rendono conto che una tale, legittima, richiesta non sia riconducibile ad un banale “Nun se po’ fa’”.
Tra le sfide che ci pone l’IAG, quella di sapere chi ha ispirato il tostapane a citare Albert Camus mentre scaldava un toast potrebbe sembrare triviale, ma non è così. Soprattutto se quella citazione verrà poi usata da altri per scopi commerciali o anche semplicemente per attribuire a ciascuno il proprio genio.
Chi vi scrive non ha né una risposta pronta né tutte le competenze necessarie per confezionarne in autonomia una valida. Ha però una speranza: che qualsiasi soluzione si adotti, questa sia statisticamente robusta. Oppure, si può sempre chiedere a ChatGPT.

Nota: in un articolo sul diritto d’autore, probabilmente dovrei dire che nomi, marchi, loghi e schermate riportate nell’articolo coperti da tale diritto sono proprietà intellettuale di chi li possiede.