Rozporządzenie o ochronie danych osobowych (RODO) reguluje przetwarzanie danych osobowych, w tym również tych wykorzystywanych przy tworzeniu i funkcjonowaniu dużych modeli językowych (LLM). Przetwarzanie danych osobowych według RODO rozpoczyna się już na etapie zbierania danych treningowych, które są niezbędne do nauki modeli. Dane te są zwykle pozyskiwane przez masowe „skrobanie” treści dostępnych w Internecie, co niemal nieuchronnie oznacza gromadzenie informacji osobowych — takich jak imiona, daty urodzenia, czy inne dane identyfikujące.

RODO obejmuje także przypadki, gdy dane nie są bezpośrednio identyfikujące, lecz połączone z innymi informacjami mogą pozwolić na ustalenie tożsamości osoby. W tym kontekście ochrona danych nie kończy się na samym fakcie gromadzenia — także etap trenowania modelu, czyli przetwarzania tych danych, podlega regulacjom RODO. Trening modeli opiera się na złożonych strukturach matematycznych, gdzie dane pierwotne są przetwarzane i przekształcane w parametry sieci neuronowej, co komplikuje identyfikację danych osobowych w finalnym modelu.

W teorii, zaawansowane techniki takie jak różnicowa prywatność (differential privacy) czy federowane uczenie maszynowe mogą anonimizować dane treningowe, czyniąc niemożliwym lub wysoce nieprawdopodobnym ich odtworzenie z modelu. W takich przypadkach wynikowy model nie jest uznawany za przetwarzający dane osobowe. Jednakże w praktyce większość popularnych modeli językowych nadal może ujawniać informacje osobowe, co jest przedmiotem ciągłych badań i analiz. Z tego powodu nawet samo przechowywanie modelu, jeśli zawiera nieanonimizowane dane, jest uznawane za przetwarzanie danych osobowych zgodnie z RODO.

Proces generowania odpowiedzi przez modele językowe stanowi kolejny etap przetwarzania danych osobowych. Jeśli model zwraca imiona, dane biograficzne lub inne identyfikatory prawdziwych osób, to niezależnie od poprawności tych informacji, mamy do czynienia z przetwarzaniem danych osobowych. Wiele z tych danych można powiązać z konkretnymi osobami, zarówno na podstawie kontekstu, jak i za pomocą dodatkowych narzędzi, np. wyszukiwarek internetowych. Modele językowe powiązane z wyszukiwarkami mogą w ten sposób ułatwiać identyfikację osób.

Nie można przy tym traktować osób występujących w danych treningowych i tych „wygenerowanych” przez model jako tożsame — LLM może tworzyć także fikcyjne dane, które jednak ze względu na zgodność imion czy innych cech mogą być przypisane rzeczywistym osobom.

Jeśli chodzi o terytorialny zakres stosowania RODO, przepisy mają zastosowanie nie tylko do działań prowadzonych na terenie Unii Europejskiej, lecz także do przetwarzania danych przez podmioty zlokalizowane poza UE, o ile oferują one swoje usługi obywatelom UE lub przetwarzają dane w ramach działalności na jej obszarze. W związku z tym technologie globalne, takie jak LLM, ChatGPT, Bard czy Gemini, podlegają RODO, jeśli są dostępne dla użytkowników z UE.

Każde przetwarzanie danych osobowych wymaga istnienia prawnej podstawy, którą reguluje art. 6 RODO. W kontekście LLM pojawia się tu szczególna trudność. Zbieranie danych treningowych, odbywające się przez masowe pozyskiwanie danych z Internetu, nie spełnia warunku dobrowolnej zgody osób, których dane są zbierane. Brak jest zwykle też umów czy zobowiązań prawnych, które mogłyby stanowić inną podstawę prawną. Wobec tego kwestia legalności tego etapu pozostaje dyskusyjna i wymaga szczegółowej analizy.

Anonymizacja danych sama w sobie jest operacją przetwarzania, która musi mieć swoją podstawę prawną, co podkreślają niektórzy eksperci. Istotne jest zatem rozróżnienie pomiędzy różnymi etapami cyklu życia danych w LLM — od pozyskiwania, przez trening, aż do generowania wyników — gdyż każdy z nich podlega odmiennym wymaganiom prawnym i technicznym.

Należy pamiętać, że ochrona danych osobowych w kontekście AI nie ogranicza się wyłącznie do aspektów technicznych, ale jest też głęboko zakorzeniona w kontekście prawnym, etycznym i społecznym. W szczególności ważne jest zrozumienie, że same technologie anonimizacji czy pseudonimizacji nie gwarantują całkowitej ochrony, a ryzyko naruszenia prywatności istnieje na wielu poziomach. Regulacje prawne, takie jak RODO, dążą do zapewnienia równowagi między innowacyjnością a prawem jednostki do ochrony swojej prywatności.

Ponadto, czytelnik powinien być świadomy rosnącej roli transparentności i odpowiedzialności podmiotów przetwarzających dane. Współczesne wyzwania związane z LLM wymagają nie tylko technicznych rozwiązań, ale też ciągłego nadzoru, audytów i ewaluacji praktyk przetwarzania danych, by zapobiegać nadużyciom i zapewnić zgodność z prawem.

Czy prawa do prywatności wystarczą, by chronić dane osobowe w erze sztucznej inteligencji?

Współczesny rozwój technologii, zwłaszcza generatywnej sztucznej inteligencji (AI), ujawnia fundamentalne ograniczenia tradycyjnych praw do prywatności. W dobie masowego przetwarzania danych przez nieliczne, potężne firmy technologiczne powstaje asymetria informacyjna — przetwarzający dane posiadają znaczną przewagę nad ich właścicielami, czyli użytkownikami. W efekcie prawa do prywatności okazują się niewystarczające do skutecznej ochrony jednostek przed utratą kontroli nad własnymi danymi.

Jednostki zazwyczaj nie są w stanie w pełni zarządzać swoimi danymi osobowymi, gdyż istnieje zasadnicze ograniczenie możliwości kontroli. Chociaż prawa mogą w niektórych przypadkach dawać użytkownikom pewien wpływ, jest on fragmentaryczny i zbyt rozproszony, by zapewnić realną ochronę prywatności. Prawa te funkcjonują raczej jako element uzupełniający szerszy system ochrony, niż jako główna tarcza zabezpieczająca.

Ogromna ilość danych pochodzących z różnorodnych źródeł sprawia, że w praktyce niemal niemożliwe jest skuteczne informowanie osób o przetwarzaniu ich danych. To powoduje, że realizacja prawa do informacji, będącego fundamentem wykonywania innych praw na mocy RODO, staje się w praktyce niemożliwa. Przykłady takie jak brak odpowiedzi firm OpenAI czy Midjourney na zapytania osób, których dane znalazły się w zestawach treningowych modeli AI, potwierdzają tę tezę. Prawo do informacji wymaga bowiem, by osoba, której dane dotyczą, była świadoma ich przetwarzania, znała cele oraz podstawę prawną tego przetwarzania, a także informacje o udostępnieniu danych osobom trzecim.

RODO dopuszcza jednak wyjątki od obowiązku informowania, gdy przekazanie informacji wymagałoby „nieproporcjonalnego wysiłku”, szczególnie w celach archiwalnych, badawczych lub statystycznych. W praktyce wątpliwe jest, czy operatorzy dużych modeli językowych mogą powoływać się na ten wyjątek, zwłaszcza gdy byli świadomi trudności w spełnieniu tych obowiązków już na etapie projektowania systemów. Zasada odpowiedzialności nakłada na administratorów danych obowiązek aktywnego dbania o prawa osób, których dane dotyczą, co wyklucza powoływanie się na niemożność realizacji żądań.

Modele generatywne, działające na ogromnych zbiorach danych, naruszają indywidualny charakter ochrony danych przewidziany w prawie. Prawa takie jak prawo do sprostowania czy usunięcia danych istnieją formalnie, ale w praktyce są bardzo trudne do wyegzekwowania. Usunięcie danych z zestawu treningowego nie gwarantuje usunięcia możliwości ich wydobycia z modelu, gdyż informacje te mogą być „ukryte” w parametrach sieci neuronowej. Ponadto, gdy dane są rozpowszechniane przez wielu użytkowników w trakcie interakcji z modelem, jedno żądanie usunięcia staje się niewystarczające.

W kwestii odpowiedzialności prawnej podkreślić należy złożoność relacji między różnymi podmiotami zaangażowanymi w przetwarzanie danych. RODO wyróżnia trzy kategorie odpowiedzialności: administratora danych, podmiot przetwarzający oraz osoby trzecie. Administrator jest kluczową postacią, decydującą o celach i środkach przetwarzania danych. Firmy rozwijające modele AI, takie jak OpenAI czy Google, pełnią rolę administratorów, gdy decydują o warunkach treningu i przechowywania modeli. Jednak w zakresie generowania wyników przez modele na podstawie danych dostarczanych przez użytkowników pojawia się pytanie o status tych użytkowników. Nie są oni procesorami w rozumieniu RODO, gdyż działają niezależnie i generują zapytania według własnego uznania, bez instrukcji administratora.

Możliwość traktowania dostawców usług AI i użytkowników jako współadministratorów, którzy wspólnie decydują o celach i środkach przetwarzania, pozostaje kwestią nierozstrzygniętą. W praktyce użytkownicy mają dużą autonomię, co komplikuje przypisanie im odpowiedzialności zgodnie z istniejącymi ramami prawnymi. To prowadzi do konieczności przemyślenia obecnych konstrukcji prawnych i ich dostosowania do specyfiki rozproszonych, data-intensywnych systemów AI.

Ważne jest zrozumienie, że tradycyjne prawa ochrony danych i prywatności, oparte na indywidualnym podejściu i możliwościach jednostkowego egzekwowania swoich praw, nie odpowiadają na wyzwania związane z powszechnym i złożonym przetwarzaniem danych w AI. Systemowe i kolektywne podejście do ochrony danych, które uwzględnia złożoność ekosystemów danych oraz asymetrię sił między użytkownikami a korporacjami, wydaje się niezbędne. Ochrona danych powinna uwzględniać nie tylko prawa indywidualne, ale również mechanizmy zarządzania i kontroli na poziomie zbiorowym, co może wymagać nowych rozwiązań prawnych i technologicznych.

Jak wykorzystanie sztucznej inteligencji zmienia analizę i generowanie dokumentów w praktyce prawnej?

Współczesne narzędzia oparte na sztucznej inteligencji (AI), a szczególnie modele językowe oparte na dużych zbiorach danych (LLM), wprowadzają rewolucję w procesy prawne, szczególnie w obszarach analizy i generowania dokumentów. Zastosowanie tych technologii w kancelariach prawnych przynosi liczne korzyści, od usprawnienia codziennych operacji po zwiększenie precyzyjności analiz i oszczędności czasu. AI może w istotny sposób wpłynąć na wszystkie etapy życia dokumentu prawnego, od jego tworzenia po zarządzanie umowami i procedurami badania zgodności z prawem.

Jednym z najbardziej zauważalnych zastosowań AI w prawie jest automatyzacja procesu przeglądu dokumentów. Dzięki technologii rozpoznawania wzorców i klasyfikacji dokumentów, systemy oparte na LLM są w stanie przetwarzać tysiące umów i innych aktów prawnych, identyfikując kluczowe zapisy, przewidując najlepsze warunki negocjacyjne na podstawie analizy danych historycznych oraz wspomagając procesy negocjacyjne. Zdolność AI do wykrywania nieuczciwych klauzul w warunkach świadczenia usług online jest kolejnym przykładem zastosowania tych technologii w celu ochrony interesów prawnych użytkowników i konsumentów.

LLM pomagają także w badaniach prawnych, umożliwiając szybkie identyfikowanie odpowiednich przepisów i orzecznictwa. Sztuczna inteligencja może generować streszczenia wyroków, a także oceniać, jak konkretny wyrok odnosi się do rozpatrywanej sprawy. W ten sposób staje się możliwe szybkie uzyskanie ogólnego przeglądu całego dorobku orzeczniczego w krótkim czasie, co znacząco przyspiesza procesy badawcze i pomaga prawnikom lepiej przygotować argumentację. Dodatkowo, AI może być wykorzystywana do tworzenia bardziej skomplikowanych zapytań semantycznych, co pomaga w lepszym odnalezieniu ukrytych w dokumentach linii argumentacyjnych oraz ich wizualizacji.

Podobnie jak w analizie dokumentów, LLM mogą pomóc w generowaniu nowych treści prawnych. Tworzenie dokumentów takich jak umowy, pisma procesowe, notatki prawne czy korespondencja staje się znacznie prostsze i szybsze dzięki zaawansowanym algorytmom AI. Narzędzia te mogą nie tylko automatycznie tworzyć nowe dokumenty, ale także podsumowywać istniejące lub wzbogacać je o brakujące informacje. Choć tradycyjnie wykorzystywano w tym celu silniki oparte na szablonach, to współczesne modele językowe opierają się na bardziej zaawansowanych metodach uczenia maszynowego, które umożliwiają tworzenie tekstów na podstawie złożonych danych wejściowych i wcześniejszych analiz.

Nie mniej istotne jest wykorzystanie narzędzi AI w kontekście chatbotów i systemów rozpoznawania mowy. Speech-to-text, czyli narzędzia do konwersji mowy na tekst, stają się coraz bardziej powszechne, a ich integracja z chatami prawnymi pozwala na automatyczne zbieranie informacji od klientów. Chatboty mogą nie tylko zbierać dane od klientów, ale także prowadzić wstępne rozmowy, udzielać podstawowych porad prawnych, a także pomagać w tworzeniu prostych dokumentów. Takie rozwiązania umożliwiają kancelariom prawnym nie tylko oszczędność czasu, ale również efektywność w kontaktach z klientami oraz w pozyskiwaniu nowych.

Rozwój generatywnej sztucznej inteligencji otworzył nowe możliwości w obszarze usług prawnych, oferując szansę na rewitalizację tradycyjnych praktyk. Dzięki AI możliwe jest nie tylko zwiększenie efektywności operacyjnej, ale także dostosowanie usług prawnych do nowych potrzeb wynikających z rosnącego zapotrzebowania na szybsze i bardziej precyzyjne procesy. Warto zauważyć, że wykorzystanie AI w kancelariach prawnych nie tylko obniża koszty, ale także pomaga w zachowaniu wysokiej jakości usług, w tym zapewniając większą spójność i trafność analiz w porównaniu do działań człowieka. Dodatkowo, z pomocą AI, mniejsze kancelarie mają teraz szansę konkurować z większymi podmiotami, co znacząco wpływa na zmiany w branży.

Z perspektywy prawników i firm zajmujących się świadczeniem usług prawnych, kluczowe jest zrozumienie, że chociaż sztuczna inteligencja wnosi ogromne korzyści, to nie jest w stanie całkowicie zastąpić człowieka w analizach prawnych. LLM pomagają przyspieszyć i uprościć wiele procesów, ale nadal wymagają nadzoru specjalistów, którzy mogą zinterpretować wyniki oraz zastosować je w kontekście konkretnych spraw. Ponadto, wdrożenie AI w firmach prawniczych wiąże się z koniecznością zapewnienia odpowiednich zasobów technicznych, prawnych i ludzkich, aby technologie mogły być wykorzystane efektywnie i zgodnie z przepisami prawa.

Jak Zharmonizować Ramy Zarządzania Generatywną Sztuczną Inteligencją?

Aktualna sytuacja w zakresie zarządzania generatywną sztuczną inteligencją (GenAI) cechuje się rozdrobnieniem przepisów na poziomie krajowym, gdzie różne regulacje nakładają odmienne obowiązki na twórców i zapewniają niespójne ochrony użytkownikom. Jak pokazuje analiza, Kodeks Odpowiedzialności (HCoC) posiada znaczący potencjał, by poprawić interoperacyjność pomiędzy ramami zarządzania państw G7, opierając rozwój i wdrażanie systemów GenAI na zasadach demokratycznych i humanistycznych – na wspólnej platformie, która nie tylko ułatwi współpracę pomiędzy członkami G7, ale także stanie się modelem dla szerszej społeczności międzynarodowej. Choć HCoC wykazuje obiecujące możliwości w zakresie harmonizacji podejść krajowych i inspirowania szerszej współpracy międzynarodowej, obecny brak konkretności w jego zapisach ogranicza jego praktyczną użyteczność. Przyszłe dyskusje liderów G7 powinny skupić się na tym, jak zaktualizować HCoC, aby zapewnić interoperacyjność zasad dotyczących zaawansowanych systemów AI, nie tylko w krajach G7, ale także w całej społeczności międzynarodowej, traktując go jako punkt odniesienia dla integrowania rozwoju i wdrażania zaawansowanych systemów AI z poszanowaniem praw człowieka, demokracji oraz rządów prawa.

Aby zrealizować pełny potencjał HCoC, przyszłe dyskusje G7 powinny skupić się na kilku kluczowych obszarach. Po pierwsze, na terminologii i definicyjnej interoperacyjności, po drugie na zarządzaniu ryzykiem, po trzecie na zaangażowaniu interesariuszy, po czwarte na kwestiach etycznych, a po piąte na obszarach, które jeszcze nie zostały uwzględnione w obecnym HCoC. Przez ustanowienie solidnych i elastycznych ram, G7 mogą umiejscowić HCoC jako globalny punkt odniesienia dla odpowiedzialnego rozwoju AI, opartego na wspólnych wartościach praw człowieka, demokracji i rządów prawa.

Zarządzanie ryzykiem i rządy nad AI stanowią kamień węgielny odpowiedzialnego rozwoju zaawansowanych systemów AI. HCoC może znacząco przyczynić się do tego obszaru, promując wspólne zasady i najlepsze praktyki. Zharmonizowanie zarządzania ryzykiem na poziomie międzynarodowym może obejmować:

  1. Identyfikację i dzielenie się ryzykami bezpieczeństwa, szczególnie ryzykami systemowymi – HCoC może poprawić swoją rolę w zwiększeniu interoperacyjności poprzez jasne wyliczenie i zajęcie się ryzykami bezpieczeństwa, które mogą mieć konsekwencje o charakterze systemowym. Może to obejmować takie zagrożenia jak halucynacje AI (generowanie nieprawidłowych wyników), tworzenie fałszywych treści (deepfake), naruszenia praw własności intelektualnej, zmiany na rynku pracy spowodowane automatyzacją, wpływ AI na środowisko, wzmacnianie uprzedzeń na podstawie danych treningowych czy kwestie prywatności. Stworzenie ram oceny ryzyka, które klasyfikowałyby systemy AI na podstawie ich potencjalnych zagrożeń, może pomóc w ustanowieniu wyższych wymagań zgodności lub większej kontroli dla systemów o wyższym ryzyku.

  2. Zwiększenie jasności procesu zarządzania ryzykiem – HCoC może zachęcić do opracowania ustandaryzowanych polityk zarządzania ryzykiem, które byłyby dostosowane do specyfiki poszczególnych aplikacji AI, obejmując cały cykl życia AI, od obowiązków przed rynkiem po aktualizacje post-rynkowe. Można w tym celu skorzystać z ustalonych ram zarządzania ryzykiem, takich jak RMF opracowany przez NIST czy standardy ISO/IEC 42001:2023.

  3. Opracowanie standardów zarządzania danymi, ryzykiem i bezpieczeństwem informacji – Warto opracować polityki zarządzania danymi, które mogłyby opierać się na sprawdzonych ramach, jak ISO/IEC 27001 i 27002 czy Ramy Cyberbezpieczeństwa NIST, oferujących strukturę adaptacyjną, dostosowaną do specyficznych wyzwań związanych z rozwojem zaawansowanych systemów AI.

  4. Wprowadzenie mechanizmów uwierzytelniania treści – HCoC może wprowadzić listę wiarygodnych mechanizmów uwierzytelniania treści, które pozwolą użytkownikom na identyfikację twórców treści lub informacji, co może pomóc w walce z fałszywymi danymi, które są generowane przez AI.

Terminologia i definicje są kluczowe dla zapewnienia skutecznego wdrażania regulacji w różnych jurysdykcjach. HCoC może pełnić rolę fundamentu w ustanawianiu wspólnej definicji metodologii określania terminów dotyczących zarządzania systemami AI. Ujednolicenie terminologii ułatwi implementację regulacji w różnych krajach oraz pozwoli na lepszą współpracę międzynarodową. Przykładem takiego działania może być tworzenie glosariuszy z kluczowymi definicjami oraz metodologii klasyfikowania systemów AI na podstawie czynników istotnych dla oceny ryzyka. Warto zauważyć, że choć podejmowane są wysiłki na rzecz ustalenia wspólnej terminologii, definicja zaawansowanych systemów AI nadal pozostaje niejasna, co powoduje trudności w klasyfikacji AI w kontekście globalnym.

HCoC, wprowadzając spójną terminologię oraz ramy zarządzania ryzykiem, może stać się fundamentem międzynarodowych standardów, które umożliwią bardziej efektywną współpracę między krajami. Ostatecznym celem jest stworzenie globalnych ram odpowiedzialnego zarządzania AI, które będą oparte na wartościach wspólnych, jak prawa człowieka, demokracja i rządy prawa, i które pozwolą na bezpieczne i etyczne rozwijanie technologii sztucznej inteligencji.