

Zjawisko brainrot – czyli powolnego rozkładu zdolności poznawczych przez zalew płytkich treści – przestało być problemem dotyczącym jedynie ludzi. Najnowsze badania sugerują, że „choroba współczesnego internetu” zaczyna infekować także sztuczną inteligencję.
Badacze z University of Texas w Austin, Texas A&M oraz Purdue University postanowili sprawdzić, co dzieje się z modelem językowym, gdy karmi się go tymi samymi treściami, które ogłupiają ludzi – wiralowymi postami, clickbaitami, memami i emocjonalnymi gorzkimi żalami z X-a. Mam brzydkie wrażenie, że z roku na rok jest z ludźmi coraz gorzej. Czy ten sam efekt da się uzyskać ze sztuczną inteligencją? Owszem, da się.
Hipoteza badaczy była prosta: jeśli AI uczy się na tym samym, co my, to może też się psuć tak samo jak my. Wyniki, opublikowane w preprincie na platformie arXiv, potwierdziły przypuszczenia. Modele Llama 3 (Meta) i Qwen (Alibaba) po treningu na tego typu danych zaczynały tracić spójność, popełniały błędy logiczne i prezentowały coraz płytsze rozumowanie.
Jeden z autorów badań, dr Junyuan Hong z UT Austin, zauważył, że gdy model uczy się na śmieciowych treściach, nie tylko wypowiada się gorzej — zaczyna też myśleć gorzej. Jeszcze tego nam brakuje, żeby AI zgłupiała.
Nie wszystko ładne, co ładnie brzmi
Najciekawsze jest to, że śmieciowe treści nie wyglądają jak śmieci. To płynne, poprawne językowo wpisy, które w tradycyjnych klasyfikatorach jakości danych uchodzą za w pełni akceptowalne. Problem tkwi głębiej – w strukturze uwagi. Owe treści uczą model nie rozumienia, lecz technik przyciągania uwagi. W efekcie AI zaczyna konstruować odpowiedzi nie po to, by przekazać sens, ale by utrzymać nas przy niej – tak jak robią to algorytmy mediów społecznościowych.
Co gorsza, po zrobieniu AI detoksu i ponownym treningu na lepszych danych modele wciąż wykazywały deficyty poznawcze. Jak piszą autorzy, to nie chwilowy błąd, lecz poznawcza blizna – trwała deformacja sposobu wnioskowania po stronie algorytmu. Kompletne kuriozum.
Dane to paliwo i trucizna jednocześnie
Ale czy powinniśmy być zaskoczeni? Istnieje od dawna pojęcie model poisoningu – zatruwania modeli przez złośliwie spreparowane dane. Tyle że tutaj nie chodzi o sabotaż, lecz o naturalny efekt masowej ekspozycji na niskiej jakości informacje. Większość internetu to dane marnej jakości. Zdolne i użyteczne modele powstają mimo tego wszystkiego, ale każde badanie tego typu jest ostrzeżeniem: powinniśmy wiedzieć, czym karmimy algorytmy.
AI natomiast nie jest w stanie świadomie sobie wytłumaczyć: „to i to jest ściekiem, mogę przeczytać, ale to mnie nie zdefiniuje”. W obliczu danych, na których trenuje, AI jest w pewnym stopniu bezkrytyczna. To, jakich wzorców uczymy AI, bezpośrednio wpływa na jej sposób myślenia.
Nowa etyka trenowania AI
Dlatego badacze wprowadzają pojęcie cognitive hygiene – higieny poznawczej modeli. Oznacza to świadome oczyszczanie zbiorów danych z treści, które karmią uwagę, a nie wspomagają rozumienie. Wraz z rosnącą ilością syntetycznej treści generowanej przez inne AI, ryzyko wtórnego zakażenia rośnie wykładniczo. Modele zaczynają uczyć się nie od ludzi, lecz od innych modeli. To tak, jakby non stop zapisywać to samo zdjęcie w JPEG-u jeszcze raz i jeszcze raz… i tak niezliczoną liczbę razy. Po wykonaniu entej kopii zauważymy, że z pierwotnego obrazu zostało już bardzo niewiele.
Jeśli nie zaczniemy traktować danych jak środowiska, przyszłe systemy mogą rozwijać własną wersję głupoty. Nie będzie ona szczególnie spektakularna, lecz bardzo podstępna. W gąszczu pozornie logicznych zdań, będziemy uzyskiwać wszelkiej maści duby smalone, kompletne dureństwa.
Czytaj również: Sztuczna inteligencja w wersji Pro za darmo dla klientów Orange
Sztuczna inteligencja uczy się od nas
I to jest problem. Maszyny nie mają własnej świadomości i coraz lepiej naśladują nasze schematy poznawcze. Jeśli internet jest miejscem pełnym płytkiej uwagi, sztuczna inteligencja nie ma skąd nauczyć się tych naprawdę przydatnych rzeczy. Być może największym ryzykiem nie jest bunt maszyn, tylko to, że staną się one równie niestabilne i bezrefleksyjne, jak my.
