Sylwester Wojnowski - Refleksje o Rzeczywistości

Szkolenie dużych modeli językowych, czyli kradzież danych chronionych prawem autorskim na masową skalę i walka z nią - Niecodziennik - Sylwester Wojnowski - Refleksje o Rzeczywistości

Niecodziennik / Wpis

O problemach


Szkolenie dużych modeli językowych, czyli kradzież danych chronionych prawem autorskim na masową skalę i walka z nią


Dodano: 2024-02-05 23:49:30

Kradzież i wykorzystanie danych do treningu dużych modeli językowych bez zgody autora to dziś powszechny problem, z którym niemal każdy, kto posiada stronę lub bloga w internecie, prędzej czy później będzie musiał się w jakimś stopniu zmierzyć.

Ilość internetowych botów, które ostatnimi czasy odwiedzają moje strony internetowe w poszukiwaniu darmowych danych stała się dla mnie do tego stopnia uciażliwa, że postanowiłem spędzić trochę czasu na jej studiowanie i ostatecznie, znalezienie jakiegoś antidotum dla tego problemu. Przez wiele lat nie miałem nic przeciwko temu, że roboty korporacji ByteDance czy Apple odwiedzały moje witryny w internecie. Problem w tym, że przez ostatnie miesiące w wielu przypadkach nie są to już pojedyńcze odwiedziny ale całe skoordynoane naloty, które nie tylko zaśmiecają dziennik odwiedzin, ale także przyczyniają się do szybszego wyczerpania zasobów serwera, za które to ja, jak jako właściciel stron WWW, ostatecznie płacę. Na przykład, pare tygodni temu bot TikToka spowodował zwrócenie przez mój  serwer HTTP ponad połowy wszystkich odpowiedzi w ciągu doby. W kilkudziesiąt minut wykonał on setki zapytań, które skutkowały zwróceniem kilku tysięcy dokumnetów.

Po przeanalizowaniu zapisów dziennika na serwerze z tego dnia, rozpocząłem polowanie i "odstrzał" niechcianych zautomatyzowanych odwiedzających. Miedzy innymi, zablokowałe wyżej nadmienione skrypty od Apple i TikToka, ale także niesłwanego bota chatGPT pracującego dla OpenAI i pośrednio MicroSoftu, oraz bota Claude od Antropic. Niedługo potem życie na serwerze wróciła do normy. Za falą zautomatyzowanych zapytań wydaje się stać głównie niewielką grupa doskonale znanych korporacji, które mają wystarczające zasoby, aby rozwijać duże model językowe jak ten napędzający usługą chatGPT.

Błyskawiczny rozwój sztucznej inteligencji w oparciu o sztuczne sieci neuronowe prowadzony przez głównie amerykańskie i chińskie firmy technologiczne w ostantich latach, a zwłaszcza miesiącach, a co za tym idzie głód nowych danych, wyczulił mnie na to, kto odwiedza moje strony, oraz skupił moją uwagę na tym, jak w obliczu tej nowej plagi skutecznie chronić moją pracę. Ostatecznie, to co tworzę, chcę aby było dostępne ludziom a nie botom. W kontekście odbioru moich treści z pewnością nie chcę pośredników jak chatGPT czy inny wirtualny rozmówca. Tekst napisany przeze mnie powinien zostać skonsumowany w oryginalnej formie, a nie jako uśredniona papka mojej zawartości i wszystkiego innego w internecie.

W kontekście nietypowych odwiedzających, o których wspomniałem wyżej, od jakiegoś czasu przyglądam się także bliżej temu, jak choronić moje obrazy i zdjęcia przed wykorzystaniem ich bez mojej zgody jako dane wejściowe do treningu dużych modeli językowych. Od niedawna są dostępne ku temu narzędzia, choć, szczególnie w moim przypadku, z pewnym "ale". Jedno z tych narzędzi nazywa się Nightshade i zostało stworzone na Uniwersytecie w Chicago przez zespół profesora Bena Zhao. Moje "ale" odnosi się do tego, że na tę chwilę Nightshade nie posiada wersji dla dystrybucji oparych o Linuxa, jak Debian GNU Linux, którego od ponad dwudziestu lat używam jako mojego głównego systemu operacyjnego. Ci, którzy korzystają z systemów operacyjnych od Apple lub MicroSoftu, mogę oprogramowanie Nightshade pobrać z tej witryny.

Wracając, do braku wersji programu Nightshade dla dystrybucji opartych o Linuxa, kilka tygodni temu wysłałem w tej sprawie zapytanie do profesora B.Zhao. Niedługo potem, w odpowiedzi otrzymałem, że jest to na ich liście rzeczy do zrobienia, aczkolwiek nie jako priorytet. Coż, pozostaje mi czekać. Póki co, znane mi boty używane do zbierania danych do treningu modeli językowych otrzymały całkowity zakaz dostępu do moich stron, włączając do obrazów. Prawdopodobnie dożywotnio.

Nie mam wątpliwości, że aby ochronić to, czym dzielę się z odwiedzającymi moje witryny przed wykorzystaniem przez korporacje do celów treningu modeli językowych bez uwzględnienia praw autorskich, będę musiał sam podjąć działania, które to uniemożliwią. Rządy, jak na przykład ten brytyjski, są po stronie korporacji stojących za rozwojem sztucznej inteligencji, a nie twórców. W moim przekonaniu, nie ma również co liczyć na to, że naruszenia praw autorskich zostaną wystarczająco, o ile w ogóle, ukarane na drodze sądowej. W Wielkiej Brytanii system sądowniczy jest powolny, trudno na nim polegać, a nawet jeżeli zostanie wydany korzystny dla pozywającego wyrok, często jest on trudny do wyegzekwowania, zwłaszcza przeciwko korporacji. Do tego dochodzą typowo wysokie, jeżeli nie kolosalne, koszta procesu. Walka z korporacjami na drodze sądowej w kapitalizmie jest szczególnie truda. Niezależnie czy w grę wchodzi technologia, ubezpieczenia czy choćby usługi bankowe, lepiej i łatwiej jest przeciwdziałać niż próbować uzyskać odszkodowanie.

W Stanach Zjednoczonych firma OpenAI została pozwana przez New York Times i wielu innych twórców za naruszenia praw autorskich. Według korporacji, jak właśnie OpenAI, MicroSoft i Meta, ograniczanie dostępu do danych może skutkować niskiej jakości lub mającymi tendencje do stronniczości modelami językowymi. Czy jest to jednak wystarczająco dobry powód aby zbierać i wykorzystywać bez pozwolenia dane choronione prawem autorskim, budować w ich oparciu usługi, a następnie sprzedawać je społeczeństwu?

W moim przekonaniu prawa autorskie i ogólnie prawo chroniące twórców zostało przyjęte nie bez powodu. Jednym z jego celów jest ochrona osób i instytucji publikujących ich twórczość przed masową i systematyczną grabieżą, kopiowaniem, modyfikacjami i wykorzystaniem bez zgody autora, które obecnie wydają się mieć miejsce w internecie, a za którymi, sądząc po pozwach, oraz tym co sam obserwuję w dzienniku odwiedzin moich witryn przez ostatnie miesiące, stoją największe i najbogatsze korporacje ze Stanów Zjednoczonych i Chin.  

W moim przypadku ochorona moich danych jest relatywnie wykonalna, bo niemal wszystko co tworzę mam pod moją całkowitą kontrolą poprzez wystarczająco nieograniczony dostęp do serwerów i ich konfiguracji. Mogę zablokować dostęp dla kogokolwiek i kiedy chcę, na tak długo jak zechcę. Sprawa ma się zupełnie inaczej dla tych z nas, którzy swoje blogi i strony oparli o korporacyjne usługi jak te oferowany przez Alphabet (wcześniej Google) Blogger, Wix czy WordPress.com. Ci wszyscy, którzy mają na tych serwisach ich dane, tak naprawdę posiadają niewiele więcej niż interfejs, czyli coś niemal zupełnie bezwartościowego. A przy tym mogą być niemal pewni, że ich dane jeżeli jeszcze nie teraz, to już wkrótce wspomogą trening modelu językowego, który korporacja utrzymująca usłgę sprzeda społeczeństwu jako kolejną "wielką rzecz" w technologii.  

Z jednej strony, trudno jest się dziwić, że wiele osób, które normalnie nie mają wiele wspólnego z programowaniem komputerów, aby mieć możliwość łatwego i bezproblemowego wyrażenia ich myśli i poglądów w internecie, skusiło się na "darmową" korporacyjną usługę. Zbudowanie i utrzymanie bloga bez pomocy kogoś, kto zna się na programowaniu i ma zacięcie do rozwiązywania problemów, nie jest łatwe. Z drugiej strony, wysiłek włożony we własną, lub nawet zrobioną na zamówienie wersję oprogramowania dla aplikacji w internecie ostatecznie daje pełną kontrolę nad tym co najcenniejsze, czyli naszymi unikalnymi danymi. Jest to korzyść trudna do przecenienia, zwłaszcza dziś, kiedy dane stały się prawdziwie wartościowym i porządanym zasobem dla każdej korporacji.


Podobna tematyka


Przeglądaj kategorię O problemach


Polecane


Dehumanizacja, czyli refleksja o postępującej automatyzacji procesów produkcyjnych

Postęp technologiczny to stopniowe usuwanie człowieka z procesów wytwórczych.

Nie zastąpione pokolenia, czyli refleksja o przyczynach i skutkach spadającej dzietności

Spadająca liczba dzieci to odpowiedź młodych ludzi między innymi na to jak są oni traktowani w systemie gospodarczy zwanym kapitalizmem.

Necorophobic, Google i mop od Viledy, czyli dożywotnia czarna lista korporacji

Miarka się przebrała, czyli korporacje, które zaśmiecają mi zawartość w internecie z pomocą Google znajdą się dożywotnio na mojej czarnej liście zakupowej.

Tylko gotówka, czyli refleksja o płatności za usługę u notariusza

Pomimo, że niemal wszędzie indziej za usługę zapłacisz kartą płatniczną, polscy nie podążają za trendem i wciąż wolą gotówkę.

Łabędzi śpiew tytana, czyli początki są trudne a końce smutne

Dla nawet największego mistrza przychodzi dzień i cios, które ostatecznie kończą jego karierę.

Dyskusja


Bądź pierwszy!

Nikt jeszcze nie zabrał głosu na powyższy temat. Bądź pierwszy!

Rozpocznij dyskusję anonimowo lub jako zalogowany użytkownik i otrzymaj powiadomienia o odpowiedziach na Twoje komentarze.

Dodaj komentarz

Zgoda na Politykę plików cookies.
Szczegóły