La protezione dei dati personali è diventata una delle tematiche più rilevanti nell'era digitale, specialmente con l'avvento delle tecnologie di intelligenza artificiale come i modelli di linguaggio generativo (LLM). La normativa europea, in particolare il Regolamento Generale sulla Protezione dei Dati (GDPR), gioca un ruolo cruciale nel definire i confini della privacy e della protezione dei dati, stabilendo chi e come può trattare i dati personali, ma la questione è complessa, soprattutto quando si tratta di tecnologie avanzate come l'intelligenza artificiale.

I modelli di linguaggio generativo, come GPT-4, Bard e altri, operano raccogliendo enormi quantità di dati da internet, un processo che spesso include anche dati personali. Secondo l'articolo 2(1) del GDPR, ogni trattamento di dati personali è soggetto alla regolamentazione, tranne in alcuni casi specifici, che non si applicano a molti dei casi legati all'uso dei LLM. Il trattamento dei dati comincia già con la raccolta, quando vengono prelevati contenuti da una vasta gamma di siti web, spesso includendo informazioni personali identificabili, come nomi, date di nascita o altre informazioni che possono identificare direttamente una persona.

Un aspetto fondamentale è che, ai sensi dell'articolo 4(1) del GDPR, i dati personali non sono limitati a quelli esplicitamente identificabili, ma comprendono anche informazioni che potrebbero, se combinate con altri dati, portare all'identificazione di un individuo. Questo implica che anche i dati parziali o indiretti, come certe caratteristiche uniche di comportamento o preferenze, possono essere trattati come dati personali se consentono l'identificazione indiretta. Questo trattamento, quindi, è soggetto alle regole del GDPR fin dal momento della raccolta dei dati, anche prima che un modello di linguaggio venga effettivamente addestrato.

Laddove diventa più complicato è nel passo successivo: l'addestramento del modello. Durante questa fase, i dati personali potrebbero non essere facilmente identificabili poiché il modello, una rete neurale artificiale, è rappresentato da una matrice di numeri, con parametri come pesi e soglie di attivazione. Anche se i dati di addestramento possono contenere informazioni personali, le tecniche avanzate di anonimizzazione, come la privacy differenziale e l'apprendimento federato, possono essere utilizzate per rimuovere ogni riferimento ai dati originali durante l'addestramento. Un modello che è stato "anonimizzato" in questo modo, e che rende impossibile o altamente improbabile la ricostruzione dei dati di addestramento, non viene considerato come contenente dati personali.

Tuttavia, il fenomeno della "memoria" dei modelli, in cui un LLM può accidentemente produrre dati identificabili anche dopo l'anonimizzazione, solleva preoccupazioni significative in merito alla conformità al GDPR. Non è sempre possibile assumere che i dati siano stati completamente anonimizzati, e la ricerca in corso su questo fenomeno è fondamentale per comprendere se, e in che misura, i modelli generativi possano ancora trattare dati personali senza violare le normative di protezione.

Il terzo passo nel ciclo di vita di un LLM è la produzione dell'output, ovvero il contenuto generato dal modello. Anche se l'accuratezza delle informazioni prodotte non è di per sé rilevante dal punto di vista legale, il semplice fatto che un LLM generi dati che contengano nomi e informazioni bibliografiche di persone reali implica che stia trattando dati personali. Inoltre, il contesto in cui viene fornito il prompt o l'output stesso può spesso consentire l'identificazione di una persona, anche senza l'uso di tecniche avanzate come i motori di ricerca. I modelli collegati a questi motori possono facilitare l'identificazione, aumentando ulteriormente i rischi legati alla protezione dei dati.

Per quanto riguarda il campo di applicazione territoriale del GDPR, l'articolo 3(1) stabilisce che il regolamento si applica al trattamento dei dati personali nell'ambito delle attività di un'azienda o di un responsabile del trattamento nell'Unione Europea, anche se il trattamento avviene al di fuori dell'UE. Ciò implica che anche i modelli di linguaggio generativo sviluppati e operanti in paesi terzi, come gli Stati Uniti, siano soggetti al GDPR se offrono servizi agli utenti nell'Unione Europea.

Il trattamento dei dati deve inoltre basarsi su una giusta base giuridica, come stabilito dall'articolo 6(1) del GDPR. Quando si tratta di intelligenza artificiale, questa questione si complica ulteriormente, poiché il trattamento dei dati varia a seconda della fase del ciclo di vita del modello. Per esempio, la raccolta dei dati di addestramento, spesso effettuata attraverso la scrittura automatica di dati su internet, non può basarsi sul consenso, come richiesto dall'articolo 6(1)(a), a meno che non vi siano obblighi legali o contrattuali. La base giuridica per altre fasi del trattamento, come l'addestramento del modello o la generazione di output, deve essere attentamente valutata in base al contesto specifico di utilizzo.

In definitiva, la protezione dei dati personali nell'ambito dei modelli di linguaggio generativo richiede una comprensione profonda non solo delle normative esistenti, ma anche delle implicazioni tecnologiche emergenti. La sfida consiste nel garantire che i sistemi di intelligenza artificiale rispettino i diritti fondamentali degli individui, non solo limitando l'accesso ai dati, ma anche prevenendo l'uso improprio e la divulgazione di informazioni personali sensibili, anche accidentalmente.

Come la concentrazione delle risorse computazionali sta plasmando il futuro dell'IA Generativa

Le risorse computazionali concentrate e controllate dai colossi tecnologici stanno facendo da base a una strategia più ampia, che potrebbe sembrare un investimento a lungo termine in termini di protezione, quasi una "polizza assicurativa" per le aziende stesse. In pratica, anche nel caso in cui i loro sforzi interni in ambito intelligenza artificiale (IA) non dovessero dare i risultati sperati, queste aziende riescono comunque a mantenere il loro predominio digitale attraverso alleanze strategiche con altre realtà emergenti nell'IA. Un esempio emblematico di questa tendenza è la collaborazione di Amazon con Anthropic nel settembre 2023, seguita dalla partnership tra Microsoft e OpenAI. Accordi simili sono stati siglati anche con altre aziende come Hugging Face (Amazon), Cohere (Google, Nvidia), Stability AI (Amazon) e Inflection AI (Microsoft, Nvidia). A livello globale, queste collaborazioni hanno attirato l'attenzione delle autorità antitrust, che ora monitorano da vicino le dinamiche di mercato di queste alleanze.

Negli Stati Uniti, la Federal Trade Commission (FTC) ha avviato un'indagine richiedendo informazioni da parte di Alphabet, Amazon, Anthropic, Microsoft e OpenAI in merito a queste collaborazioni. La crescente concentrazione di potere tra i "mega-players" della tecnologia potrebbe acutizzarsi con l'aumento della domanda di IA generativa, in quanto le aziende cercano di consolidare il proprio dominio in un mercato in espansione.

Il fenomeno delle fusioni e acquisizioni o delle alleanze strategiche nelle tecnologie emergenti può portare, talvolta, a una riduzione della concorrenza, eliminando attuali o potenziali concorrenti. Un caso noto di "killer acquisition", ovvero acquisizione di aziende che rappresentano una minaccia per il dominio del mercato, sta già sollevando interrogativi nei mercati innovativi, dove la combinazione di idee e tecnologie diverse potrebbe produrre benefici imprevisti. Tuttavia, il controllo delle fusioni si rivela un compito complesso, in particolare quando transazioni che potrebbero sollevare problemi di concorrenza sfuggono ai confini giurisdizionali esistenti, rendendo ogni caso particolarmente dipendente dalle circostanze specifiche.

Un altro ostacolo all'ingresso nel mercato delle IA generative potrebbe risiedere nell'accesso alle competenze e al talento, anche se con il tempo la domanda e l'offerta potrebbero bilanciarsi. Tuttavia, uno degli aspetti cruciali riguarda la disponibilità di dati, che rappresentano un elemento fondamentale per i modelli di base (foundation models) e per i mercati dell'IA in generale. La generazione di modelli IA è strettamente legata all'uso di enormi quantità di dati, da cui vengono estratti i modelli di apprendimento automatico. Questi dati possono essere sia proprietari (come ad esempio il MassiveText di DeepMind) che open-source (come HuggingChat OASST1 o Amazon Massive Dataset). La qualità e la quantità di tali dati si riflettono direttamente sulla capacità di un'azienda di affermarsi nel settore.

La questione dei dati e delle pratiche abusive di dominanza ha guadagnato attenzione soprattutto nei mercati legati ai dati dei consumatori e alla pubblicità digitale, dove le grandi piattaforme come Amazon sono accusate di sfruttare i dati dei venditori terzi a loro vantaggio, consolidando ulteriormente la propria posizione nel mercato. La Commissione Europea ha avviato indagini sulla modalità con cui Amazon raccoglie e utilizza i dati di terzi, come dimostra il caso che riguarda la sua piattaforma Marketplace, dove l'azienda ha utilizzato informazioni sensibili per promuovere i propri prodotti.

Nonostante tutto, alcuni sostengono che la semplice raccolta massiva di dati non sia sufficiente per garantire il successo a lungo termine. In effetti, alcune nuove realtà, come OpenAI e Midjourney, sono riuscite a superare le aziende più consolidate grazie alla loro capacità di innovare, senza necessariamente possedere vasti bacini di dati. Questo suggerisce che la qualità dei dati potrebbe avere un impatto maggiore rispetto alla sola quantità, portando anche a riflessioni sul fatto che, in un contesto come quello dell'IA generativa, l'accesso a dataset proprietari di alta qualità derivanti da mercati adiacenti, come nel caso del settore legale, potrebbe fornire un vantaggio competitivo sostanziale.

Non si deve quindi sottovalutare l'importanza della qualità dei dati, che, sebbene possa ridurre la necessità di risorse computazionali massicce e abbassare i costi di allenamento dei modelli, continua a essere una risorsa fondamentale per consolidare il potere di mercato di questi giganti tecnologici. Mentre alcuni settori potrebbero non vedere ancora l'affermarsi di una dominanza completa dei dati come nel caso della pubblicità online, nei mercati emergenti dell'IA generativa, tale dominanza potrebbe diventare una realtà, soprattutto quando le aziende si concentrano sulla monetizzazione e sull'espansione su larga scala dei propri servizi.

Quali sono gli obblighi professionali nell’uso dell’intelligenza artificiale nella pratica legale?

L'integrazione delle applicazioni di intelligenza artificiale (IA) nel settore legale ha sollevato una serie di questioni etiche e professionali. Le normative in vigore, sia a livello nazionale che internazionale, tendono a imporre standard di comportamento rigorosi per gli avvocati che utilizzano strumenti basati su IA, come i modelli linguistici di grandi dimensioni (LLM). Gli avvocati devono osservare alcuni principi fondamentali che non solo tutelano i diritti dei clienti, ma garantiscono anche che l’uso dell’IA avvenga in modo conforme alle norme professionali.

Innanzitutto, è essenziale che l’avvocato rispetti il dovere di riservatezza nei confronti del cliente durante l’utilizzo delle applicazioni di IA. Questo significa che tutte le informazioni trattate dall’intelligenza artificiale devono essere protette, evitando qualsiasi violazione della privacy e della confidenzialità dei dati legali. Un altro obbligo fondamentale è il dovere di cura fiduciaria, che richiede all’avvocato di garantire che l’intelligenza artificiale venga utilizzata in modo che gli interessi del cliente siano sempre priorità assoluta.

Inoltre, l’obbligo di informazione e consenso gioca un ruolo cruciale: il cliente deve essere adeguatamente informato sull’utilizzo dell'IA e dare il proprio consenso prima che venga impiegata in qualsiasi fase del procedimento legale. Questo principio è particolarmente importante in un contesto dove l'adozione di tecnologie emergenti potrebbe generare incertezze riguardo alla trasparenza delle decisioni o alla qualità dei risultati ottenuti.

Il dovere di competenza è un altro aspetto fondamentale. Gli avvocati devono possedere una conoscenza approfondita delle applicazioni di IA che utilizzano e comprendere appieno i potenziali rischi e benefici. Questo include non solo l’abilità nell’utilizzare gli strumenti tecnologici, ma anche la consapevolezza delle limitazioni che caratterizzano le attuali tecnologie. L’avvocato, pertanto, è tenuto a eseguire una supervisione accurata dei risultati generati dall’IA, per evitare che errori dovuti a imprecisioni tecnologiche compromettano la qualità del servizio legale.

L’obbligo di lealtà fiduciaria implica che l’avvocato mantenga la fiducia del cliente, facendo un uso responsabile delle risorse tecnologiche, evitando conflitti di interesse e garantendo che l'IA non venga impiegata per scopi che possano danneggiare l'integrità del rapporto professionale. L’avvocato deve sempre agire nell’interesse esclusivo del cliente, senza mai compromettere il principio di lealtà professionale.

Inoltre, l'obbligo di conformità normativa impone che l’utilizzo di IA rispetti le leggi vigenti e le normative di regolamentazione in materia di diritto digitale e privacy, come il GDPR in Europa. È essenziale che l’avvocato operi in conformità con le regolazioni locali, tenendo conto delle specificità giuridiche delle diverse giurisdizioni in cui pratica.

Infine, il dovere di supervisione e responsabilità è cruciale per garantire che l’uso dell'IA rimanga sotto controllo umano. Gli avvocati sono chiamati a esercitare una supervisione costante sull'uso degli strumenti di IA, mantenendo la capacità di intervenire e correggere gli eventuali errori. In un contesto legale, la presenza umana nella gestione dell'IA è fondamentale per garantire che le decisioni finali siano sempre esaminate e approvate da un professionista esperto.

È anche importante riconoscere che l’adozione di nuove tecnologie, come gli LLM, modifica il livello richiesto di competenza. L’avvocato deve essere in grado di integrare queste tecnologie in modo da migliorare la qualità del servizio fornito, ma senza compromettere l'affidabilità e la veridicità delle informazioni. L’utilizzo di IA non deve mai sostituire il giudizio umano, ma deve piuttosto servirne come complemento.

In Germania, ad esempio, la giurisprudenza suggerisce che l'uso di tecnologie avanzate può essere considerato una violazione dell’obbligo di cura se non vengono verificate accuratamente le informazioni prodotte. Un avvocato che non esegue un controllo manuale delle scadenze o dei dati importanti può incorrere in una violazione della norma di diligenza. In contrasto, la Corte federale tedesca ha stabilito che non è obbligatorio l’uso di caselle postali elettroniche se altri strumenti di comunicazione non funzionano.

In ambito americano, il Commento 8 alle Regole del Modello ABA stabilisce che gli avvocati sono tenuti a rimanere aggiornati sugli sviluppi tecnologici che influenzano la pratica legale. Ciò implica che l'adozione di tecnologie avanzate come gli LLM potrebbe diventare parte integrante della competenza professionale nel prossimo futuro, anche se al momento l’uso di IA non è ancora obbligatorio.

In sintesi, gli avvocati devono affrontare le sfide etiche legate all’utilizzo dell’IA con una combinazione di prudenza, vigilanza e competenza, assicurandosi che l'adozione di queste tecnologie non comprometta il loro obbligo di fedeltà, riservatezza e competenza verso il cliente. L’adozione di strumenti di IA dovrebbe sempre essere finalizzata a migliorare il servizio legale, rispettando rigorosamente gli standard etici e professionali stabiliti.

Come Stabilire Meccanismi Etici e di Trasparenza nello Sviluppo dell'Intelligenza Artificiale

L'adozione e l'implementazione di intelligenza artificiale (IA) avanzata comportano non solo sfide tecniche ma anche questioni etiche e legali fondamentali. Un aspetto cruciale in questo contesto è la necessità di creare meccanismi di etichettatura comuni che aiutino gli utenti a comprendere quando un contenuto è generato dall'IA. Questi meccanismi, che potrebbero derivare da progetti come il progetto HAIP, sono essenziali per evitare confusione e per promuovere un uso responsabile dell'intelligenza artificiale.

I sistemi di autenticazione rappresentano uno strumento importante per proteggere l'integrità delle informazioni e prevenire la diffusione di disinformazione. Tuttavia, è fondamentale bilanciare questi strumenti con la protezione della privacy individuale, garantendo che i processi di autenticazione non compromettano i dati personali. Questo equilibrio è cruciale per mantenere la fiducia pubblica e favorire un utilizzo etico dell'IA, rispettando al contempo i diritti umani e i valori democratici.

La fiducia nelle tecnologie IA può essere costruita solo attraverso un solido impegno degli stakeholder. Un processo di sviluppo dell'IA trasparente e responsabile facilita la condivisione di informazioni e promuove la fiducia del pubblico. A tal fine, l'adozione di formati standardizzati per i report di trasparenza è una strada promettente. Ad esempio, il Regno Unito ha sviluppato lo Standard di Registrazione della Trasparenza Algoritmica (ATRS), che potrebbe servire da modello internazionale per migliorare la coerenza nei report e negli audit, facilitando la comprensione da parte del pubblico dei sistemi IA in fase di sviluppo.

Altre misure includono la definizione di formati chiari per la condivisione di incidenti legati alla sicurezza o ai pregiudizi dei sistemi IA. Una comunicazione aperta sugli incidenti, che siano problemi di sicurezza o di equità, permette agli stakeholder di apprendere dalle esperienze passate e migliorare i sistemi futuri. In questo modo, l'approccio collaborativo diventa un elemento chiave per rafforzare la sicurezza e l'affidabilità delle tecnologie IA.

Per quanto riguarda le considerazioni etiche e sociali, è imperativo che lo sviluppo dell'IA sia in linea con i principi fondamentali che sorreggono i valori democratici, i diritti umani e lo stato di diritto. Il G7, come gruppo di democrazie avanzate, ha un'opportunità unica di guidare la conversazione globale sull'IA responsabile. A questo proposito, l'adozione di un approccio "centrato sull'essere umano" dovrebbe essere potenziata, promuovendo la protezione dei diritti fondamentali come la privacy, la libertà di espressione e la parità di accesso alle informazioni. Ciò implica anche l'adozione di misure per garantire che l'IA non venga utilizzata per limitare il dissenso o per imporre restrizioni non giustificate sull'accesso alle informazioni.

In particolare, dovrebbe essere favorito un processo decisionale che promuova la trasparenza, l'inclusività e la responsabilità. Le tecnologie IA dovrebbero essere progettate tenendo conto delle diverse esigenze e prospettive delle popolazioni, assicurando che i benefici siano distribuiti in modo equo e che nessun gruppo sociale venga penalizzato. Questo approccio dovrebbe estendersi anche alla necessità di una supervisione efficace in applicazioni ad alto rischio, in cui l'intervento umano potrebbe essere essenziale per garantire decisioni corrette e giuste.

Inoltre, la cooperazione internazionale sarà fondamentale per affrontare le sfide globali legate all'IA. È necessario, quindi, un approccio normativo che copra l'intero ciclo di vita delle tecnologie IA, dalla valutazione pre-mercato alla sorveglianza post-mercato. La creazione di meccanismi di certificazione e audit potrebbe rappresentare uno strumento efficace per garantire che i sistemi IA siano conformi agli standard etici e legali previsti, riducendo al minimo i rischi associati a queste tecnologie.

Va inoltre considerato il ruolo speciale che i governi possono svolgere nell'utilizzo delle tecnologie IA. Le normative dovrebbero definire chiaramente i limiti dell'uso dell'IA da parte dello Stato, in modo da evitare abusi di potere. In tal senso, il rispetto dei diritti fondamentali come la privacy e la trasparenza deve essere garantito in ogni fase dell'uso governativo dell'IA. È fondamentale che vi siano meccanismi di supervisione indipendenti e percorsi chiari di rimedio per le persone che subiscono danni a causa dell'uso scorretto dell'IA.

In sintesi, l'approccio all'intelligenza artificiale deve essere caratterizzato da una continua evoluzione normativa, dalla trasparenza nella gestione dei dati e dalla tutela dei diritti individuali. La comunità internazionale ha la responsabilità di sviluppare linee guida che promuovano l'uso responsabile dell'IA, sostenendo l'innovazione senza compromettere i valori democratici e i diritti umani.

Qual è lo stato della standardizzazione dell'IA generativa a livello internazionale?

La standardizzazione dell'intelligenza artificiale generativa si trova attualmente in una fase iniziale e frammentata, nonostante la diffusione e l'impatto crescente di questa tecnologia a livello globale. A livello europeo, i processi normativi tramite CEN-CENELEC JTC21 sono ancora in via di definizione, e resta incerto il ruolo concreto che essi potranno assumere nella definizione di standard per l’IA generativa. La rapidità con cui si evolve la tecnologia rende difficile una reazione coerente da parte degli organismi normativi tradizionali, e ciò è emblematico anche nella situazione internazionale, dove le discussioni all’interno di ISO/IEC rimangono informali, prive di bozze consolidate o orientamenti operativi chiari.

Le strutture esistenti di ISO/IEC JTC1/SC42, create tra il 2018 e il 2021, precedono il boom dell’IA generativa e sono già gravate da un'agenda ampia e ambiziosa. La comunità di esperti è satura, e di conseguenza l’attenzione verso la standardizzazione dell’IA generativa è rimasta marginale. A livello nazionale, più di cinquanta paesi dispongono di comitati speculari che seguono l’evoluzione degli standard ISO/IEC o CEN-CENELEC, ma anche in questi contesti l’interesse verso l’IA generativa non ha ancora acquisito priorità. È un fenomeno noto che la standardizzazione tenda a seguire, piuttosto che anticipare, il progresso tecnico. La maturità e la stabilità necessarie per iniziare un’effettiva normazione tecnica dell’IA generativa non sono ancora state raggiunte, nonostante alcuni segnali di rallentamento nella crescita delle capacità dei modelli di base.

Un ulteriore ostacolo è rappresentato dalla concentrazione delle competenze: le figure professionali più qualificate in grado di contribuire alla standardizzazione lavorano presso grandi imprese – OpenAI, Google, Mistral, Anthropic, Meta – le quali, in un mercato caotico e competitivo, non hanno interesse strategico nel destinare risorse alla cooperazione normativa. La logica dominante resta quella della competizione e della leadership tecnologica, piuttosto che del coordinamento interistituzionale.

Tuttavia, sono in corso iniziative parallele per sviluppare quadri di governance dell’IA generativa al di fuori degli schemi normativi tradizionali. Un esempio recente è il Model AI Governance Framework di Singapore, che cerca di proporre un approccio regolatorio operativo. Allo stesso tempo, l’OCSE e altri forum internazionali stanno lavorando sull’implementazione del codice di condotta concordato nel processo di Hiroshima del G7.

Sebbene sia prematuro tracciare una mappa analitica della standardizzazione dell’IA generativa, è possibile delineare alcuni ambiti che potrebbero diventare oggetto di normazione nei prossimi anni: metodi di test e metriche prestazionali per i modelli; misurazione del consumo di risorse, sia in fase di addestramento sia durante l’utilizzo; licenze standardizzate per l’ingestione di contenuti online; definizioni terminologiche e tassonomiche condivise; metriche di similarità tra modelli generativi; soglie tecniche per la marcatura dei contenuti come generati da IA; standard di watermarking e tracciabilità, come quelli proposti dall’iniziativa Content Authenticity.

L’impatto dell’IA generativa si estende anche ad aree non strettamente legate all’IA. La capacità di produrre contenuti su scala massiva — precedentemente impossibile o antieconomica — modifica profondamente la struttura dell’informazione digitale. L’emergere di ‘bot’ automatizzati, realistici e indistinguibili da esseri umani, capaci di impersonare giornalisti, recensori o influencer, pone minacce concrete alla resilienza dello spazio informativo e alla fiducia collettiva. La proliferazione di contenuti ingannevoli, sostenuta da IA generativa in mano a soggetti malevoli, impone lo sviluppo di strutture normative capaci di preservare l’integrità del discorso pubblico.

Già nel 2021, un gruppo di lavoro europeo del programma StandICT ha condotto un’analisi dettagliata e pubblic