W kontekście nowoczesnych technologii, takich jak modele generatywne, pojawiają się istotne wyzwania prawne dotyczące ochrony danych osobowych. Jednym z kluczowych zagadnień jest kwestia, na jakiej podstawie prawnej może odbywać się zbieranie danych do trenowania takich systemów. Zgodnie z artykułem 6(1)(f) RODO, przetwarzanie danych osobowych może być zgodne z prawem, jeśli jest konieczne do realizacji uzasadnionego interesu administratora danych lub strony trzeciej, pod warunkiem, że interesy te nie przeważają nad podstawowymi prawami i wolnościami osób, których dane dotyczą. Takie przepisy stanowią jedną z podstaw do zbierania danych na potrzeby trenowania modeli sztucznej inteligencji.
Ważne jest jednak zrozumienie, że RODO nakłada na administratorów danych konieczność przestrzegania trzech podstawowych warunków, które muszą być spełnione, aby dane mogły być przetwarzane na podstawie uzasadnionego interesu. Po pierwsze, przetwarzanie musi być niezbędne do realizacji tego interesu. Po drugie, interes administratora lub strony trzeciej nie może być nadrzędny w stosunku do praw i wolności osoby, której dane dotyczą. Wreszcie, ocena zgodności przetwarzania danych z przepisami RODO wymaga rozważenia, czy rzeczywiście jest to najbardziej proporcjonalny sposób realizacji celów biznesowych czy naukowych.
Zgodnie z orzecznictwem Trybunału Sprawiedliwości Unii Europejskiej, przetwarzanie danych osobowych w celu trenowania modeli generatywnych nie jest prostą kwestią. W szczególności, sprawa dotyczyła firmy Meta, która wykorzystała dane użytkowników do personalizacji treści reklamowych. Trybunał uznał, że przetwarzanie danych w tym celu, nawet gdy usługi są darmowe, może naruszać prawa użytkowników, jeżeli nie uzyskano ich wyraźnej zgody na takie przetwarzanie. Zatem podstawowym wyzwaniem w przypadku modeli generatywnych, takich jak ChatGPT, jest fakt, że dane osobowe mogą być wykorzystywane w sposób, który wykracza poza pierwotne intencje użytkowników. Często użytkownicy internetu nie mają pełnej świadomości, jak ich dane mogą być przetwarzane i w jakich celach.
Należy również zwrócić uwagę na fakt, że skala przetwarzania danych do trenowania modeli AI stawia przed prawodawcami trudne pytania o proporcjonalność. Choć w przypadku przetwarzania danych na potrzeby generowania treści, jak w przypadku modeli AI, trudno sobie wyobrazić alternatywne metody zbierania danych, wciąż istnieje konieczność rozważenia, czy zbieranie danych na taką skalę jest rzeczywiście niezbędne. Firmy technologiczne, takie jak OpenAI, mogą bowiem argumentować, że zaoszczędzone koszty są kluczowe dla rozwoju technologii, ale z drugiej strony, czy można uznać oszczędności kosztów za uzasadniony interes w świetle ochrony prywatności użytkowników? Z pewnością wiele wskazuje na to, że tak szerokie i masowe zbieranie danych nie jest absolutnie konieczne do rozwoju AI, a inne metody, takie jak dane anonimowe, mogłyby stanowić alternatywę, chociaż w praktyce byłyby mniej efektywne.
Kluczowym wyzwaniem pozostaje więc znalezienie balansu między interesami operatorów modeli AI, którzy pragną uzyskać jak najwięcej danych, a fundamentalnymi prawami użytkowników, którzy niekoniecznie muszą wyrażać zgodę na wykorzystywanie ich danych w tak szeroki sposób. Z tego względu odpowiednia ochrona prywatności w erze sztucznej inteligencji powinna obejmować nie tylko wymagania dotyczące uzyskiwania zgody na przetwarzanie danych, ale także przewidywanie, w jaki sposób dane osobowe mogą być wykorzystywane w nowych kontekstach.
Warto również zauważyć, że samo istnienie danych w przestrzeni publicznej, udostępnionych przez samych użytkowników, nie oznacza, że tracą one swoją wartość ochrony. RODO nie zakłada, że publiczny dostęp do informacji całkowicie wyłącza obowiązek ochrony prywatności. Wiele danych, które zostały udostępnione przez użytkowników w internecie, mogły zostać opublikowane z myślą o innym zastosowaniu, co wyklucza możliwość ich przetwarzania w celach innych niż te pierwotnie zakładane. Zatem istnieje realna potrzeba zapewnienia użytkownikom internetu pełnej kontroli nad tym, w jaki sposób ich dane mogą być wykorzystywane przez systemy AI.
Należy także podkreślić, że rozwój modeli AI wiąże się z nowymi wyzwaniami dotyczącymi nie tylko ochrony danych, ale również etycznego wykorzystania technologii. W kontekście generatywnych modeli sztucznej inteligencji, ważne jest, aby rozważyć kwestie związane z dezinformacją, defamacją, a także z ryzykiem kradzieży tożsamości czy oszustw. Technologie, które mają potencjał do generowania treści, powinny być odpowiednio regulowane, aby uniknąć wykorzystania ich w sposób, który może szkodzić jednostkom lub społeczeństwu jako całości.
Czy publiczne dane internetowe mogą być legalnie wykorzystywane do treningu modeli językowych?
Wykorzystanie publicznie dostępnych danych internetowych do trenowania komercyjnych modeli językowych (LLM) budzi istotne kwestie prawne i etyczne. Zasadne jest założenie, że przeciętny użytkownik internetu nie spodziewa się, iż jego dane będą używane jako materiał szkoleniowy dla modeli sztucznej inteligencji, zwłaszcza jeśli służy to wyłącznie zyskowi finansowemu podmiotów tworzących te modele. W praktyce wykorzystanie takich danych stanowi cel wtórny wobec ich pierwotnego udostępnienia w przestrzeni cyfrowej, co rodzi poważne wątpliwości dotyczące naruszenia kontekstowej prywatności osób, których dane są przetwarzane.
Należy także uwzględnić, że ocena legalności takiego przetwarzania musi odbywać się w kontekście obowiązujących regulacji europejskich i krajowych. Szeroki zakres „scrapingu” – czyli masowego zbierania danych – obejmuje potencjalnie ogromną liczbę osób, co rodzi problem proporcjonalności i zasadności przetwarzania. Niemiecka doktryna konstytucyjna oraz orzecznictwo Trybunału Sprawiedliwości Unii Europejskiej wprowadziły pojęcie „scatter width”, czyli zasięgu oddziaływania na dużą grupę osób bez uzasadnionej podstawy, co negatywnie wpływa na legitymację takiego działania. Ponadto „uzasadniony interes” musi być nie tylko określony, ale także zgodny z prawem i spełniać wymogi ochrony danych osobowych, w tym zasadę minimalizacji danych oraz odpowiednich zabezpieczeń, jak wskazuje motyw 50 RODO.
Trudności pojawiają się szczególnie w kontekście identyfikacji indywidualnych interesów osób, których dane są przetwarzane – często takie interesy są niemal niemożliwe do wyodrębnienia w przypadku masowego gromadzenia danych. Już na etapie legalności scrapingu pojawiały się obawy związane z potencjalnymi naruszeniami praw autorskich oraz innych praw podmiotów danych. Działania oparte na systemowych naruszeniach praw nie mogą być uznane za zgodne z prawem. Zasady ochrony danych, szczególnie te dotyczące zgodności z zasadą uczciwości, ograniczenia celu, minimalizacji danych oraz ich dokładności (art. 5 RODO), muszą być respektowane, co jeszcze bardziej ogranicza możliwość przyjęcia domniemania o uzasadnionym interesie wobec całego korpusu danych wykorzystywanych do trenowania modeli.
Kwestia ta komplikuje się jeszcze bardziej, gdy w zestawach danych pojawiają się dane osobowe dzieci lub dane szczególnej kategorii (art. 9 RODO), których wykluczenie z materiałów treningowych jest praktycznie bardzo trudne, jeśli nie niemożliwe. Co więcej, nie istnieje jeszcze jednoznaczne orzecznictwo określające moment, w którym przetwarzanie danych osobowych ujawnia dane szczególnej kategorii w rozumieniu RODO, co wprowadza dodatkową niepewność prawną.
Proces trenowania modeli warto analizować chronologicznie, zwracając uwagę na etap anonimizacji danych. Jeśli dane są skutecznie anonimizowane, przetwarzanie takich anonimowych danych wykracza poza zakres stosowania RODO. Orzecznictwo TSUE podkreśla, że dane można uznać za anonimowe, jeśli identyfikacja osób jest praktycznie niemożliwa, a jej podjęcie byłoby nielegalne. Anonimizacja jest zgodna z zasadą minimalizacji i ograniczenia przechowywania danych, a także służy ochronie interesów zarówno podmiotów danych, jak i administratorów.
Jednakże ze względu na ogromne ilości danych, uzyskanie świadomej zgody na ich wykorzystanie w celach treningowych jest w praktyce nierealne. Dlatego w przypadku takich danych często stosuje się podstawę prawną „uzasadnionego interesu” (art. 6 ust. 1 lit. f RODO), zakładając, że anonymizacja chroni interesy osób, a potencjalne konflikty interesów są znikome. W odniesieniu do danych szczególnych kategorii, dopuszcza się jednak konieczność spełnienia dodatkowych wymogów wynikających z art. 9 ust. 2 RODO, co jest trudniejsze do zrealizowania. Niektórzy eksperci postulują nawet teleologiczne zawężenie stosowania art. 9 ust. 1 RODO w kontekście anonimizacji, jednak nie zmienia to faktu, że naruszenie praw podmiotów danych jest wykluczone tylko wtedy, gdy dane zostały skutecznie zanonimizowane.
Wreszcie, generowanie treści przez modele językowe samo w sobie może oznaczać przetwarzanie danych osobowych, zwłaszcza gdy dotyczy danych pochodzących z treningu lub gdy użytkownik wprowadza dane w formie zapytań. W przypadku danych użytkownika konieczne jest uzyskanie świadomej i efektywnej zgody, zgodnie z art. 6 ust. 1 lit. a RODO. Polityki prywatności operatorów takich modeli muszą być na bieżąco aktualizowane, aby odzwierciedlać te wymogi oraz zapewnić przejrzystość przetwarzania danych w środowisku cyfrowym.
Oprócz powyższych zagadnień, ważne jest zrozumienie, że ochrona danych osobowych w kontekście sztucznej inteligencji wymaga równoważenia interesów całych grup osób i pojedynczych jednostek. Modele AI działają na ogromnych, często heterogenicznych zbiorach danych, co stawia wyzwania przed tradycyjnym, indywidualistycznym podejściem RODO. Przyszłe regulacje i praktyki muszą brać pod uwagę te specyficzne właściwości, uwzględniając zarówno prawa jednostek, jak i efektywność technologiczną oraz społeczne korzyści płynące z rozwoju AI.
Jakie zasady i wytyczne stosują instytucje europejskie w zakresie wykorzystania generatywnej sztucznej inteligencji w administracji publicznej?
Instytucje Unii Europejskiej, w tym Komisja Europejska (KE) oraz Trybunał Sprawiedliwości Unii Europejskiej (TSUE), przyjęły zasady dotyczące stosowania dostępnych online narzędzi generatywnej sztucznej inteligencji (AI) przez swoich pracowników. Zasady te stanowią kluczowy element podejścia prewencyjnego, mającego na celu minimalizowanie ryzyk związanych z wykorzystaniem nowoczesnych technologii w administracji publicznej.
Zgodnie z wytycznymi KE, pracownicy są zobowiązani do przestrzegania zasad ochrony danych osobowych oraz ochrony informacji, które są ujawniane w związku z pełnieniem obowiązków służbowych. Zasada ta wprowadza wymóg, aby informacje generowane przez narzędzia AI były zawsze poddawane krytycznej ocenie pod kątem ewentualnych błędów merytorycznych lub biasu. Pracownicy muszą także upewnić się, że wykorzystanie narzędzi generatywnej AI nie narusza praw własności intelektualnej osób trzecich, w szczególności prawa autorskiego.
Zgodnie z zasadą 4, pracownicy KE nie powinni wprost replikować wyników generatywnej AI w dokumentach publicznych, zwłaszcza jeśli chodzi o tworzenie tekstów Komisji, które mają moc prawną. Zasada ta ma na celu zapobieżenie wykorzystywaniu generatywnej sztucznej inteligencji do tworzenia treści, które mogą stać się podstawą decyzji administracyjnych, w tym prawodawczych, bez odpowiedniego nadzoru ludzkiego.
Reguła 5 wprowadza zakaz polegania na narzędziach generatywnej AI w procesach krytycznych i wymagających szybkiego działania, gdzie opóźnienia lub błędy mogą mieć poważne konsekwencje dla sprawności administracyjnej.
Zasady przyjęte przez TSUE rozszerzają te wytyczne, dodając zasadę wspólnej oceny oraz refleksji wśród pracowników na temat wykorzystania narzędzi AI. Zgodnie z wytycznymi, pracownicy powinni współpracować z kolegami z zespołu, aby wspólnie ocenić potrzeby i ryzyka związane z generatywną sztuczną inteligencją. Istotnym elementem tych zasad jest również ludzka kontrola jakości weryfikująca dane generowane przez systemy AI. Wszelkie wyniki generowane przez AI muszą być dokładnie sprawdzane przez ludzi, a przed ich wykorzystaniem powinny być poddawane krytycznej refleksji, aby upewnić się, że są one nie tylko prawdziwe, ale również odpowiednie i zgodne z celami administracyjnymi.
W 2024 roku obie instytucje przyjęły własne strategie dotyczące AI. Strategie te uwzględniają podejście prewencyjne i kładą duży nacisk na zarządzanie technologiami AI w sposób zgodny z etyką, prawem i regulacjami. Strategia KE wskazuje na konieczność wzmocnienia zarządzania IT w zakresie sztucznej inteligencji, co odgrywa kluczową rolę w ocenie, wdrażaniu i ewaluacji systemów AI i generatywnej AI. W KE za wstępną ocenę inicjatyw związanych z AI odpowiada Rada Technologii i Cyberbezpieczeństwa, która analizuje zgodność projektów z wymogami etycznymi, prawnymi i regulacyjnymi. W przypadku TSUE utworzono dwa nowe organy odpowiedzialne za architekturę oraz zarządzanie danymi. Jeden z tych organów ma na celu identyfikację obszarów, w których AI może przynieść korzyści, oraz realizację projektów pilotażowych testujących te korzyści.
Wytyczne oraz strategie wskazują również na potencjalne nowe zastosowania AI w administracji publicznej, w tym wspieranie procesu legislacyjnego, monitorowanie polityki oraz odpowiedzi na pytania parlamentarne. Generatywna AI może być wykorzystywana do analizy prawa, oceny wpływu nowych przepisów na istniejące regulacje krajowe i europejskie, a także wspierania negocjacji legislacyjnych. Istotnym elementem jest również wsparcie w tworzeniu dokumentów roboczych, raportów i innych materiałów, które nie są uznawane za wrażliwe.
Jednym z kluczowych aspektów przyjętych zasad i strategii jest ich zbieżność z przepisami zawartymi w Aktach o Sztucznej Inteligencji (AIA), które wprowadzają dodatkowe obowiązki w zakresie zgodności z regulacjami dotyczącymi AI, nakładając na instytucje publiczne szereg restrykcji i wymagań związanych z jej stosowaniem.
Ważne jest, aby pracownicy administracji publicznej rozumieli, że stosowanie narzędzi AI w kontekście generowania treści musi zawsze być poprzedzone odpowiednią weryfikacją i refleksją. Ponadto, nie należy traktować narzędzi AI jako samodzielnych podmiotów decyzyjnych, lecz jako wsparcie dla ludzi, którzy finalnie odpowiadają za zgodność i jakość wyników. To podejście zapewnia bezpieczeństwo prawne i merytoryczne, minimalizując ryzyko błędów lub niepożądanych konsekwencji związanych z niepełną lub nieprawdziwą informacją generowaną przez AI.
Dlaczego nauka przegrywa w walce z religijnymi przekonaniami w polityce zdrowotnej?
Jakie są możliwości wykorzystania stopów pamięci kształtu w różnych dziedzinach?
Jak działają tokenizator i parser w interpreterze NanoBASIC?
Zarządzanie znieczuleniem w czasie operacji shuntu Pottsa u dziecka z idiopatycznym nadciśnieniem płucnym

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский