Jak można wykiwać Twoje agenty AI oraz boty AI kradnące treści z Twojej strony?

Wstrzykiwanie wrogich, czyli zapętlonych hiperlinkami miałkich treści, które mają zapchać i ogłupić AI, to tylko jeden ze sposobów oszukiwania agentów AI wchodzących na strony internetowe. Oczywiście treści te nie są widzialne dla zwykłych użytkowników. A jakie są inne sposoby wystrychiwania AI na dudka I czy mogą one wpływać tylko na konkretne agenty? Próbę stworzenia klasyfikacji “pułapek na AI” podjęli badacze z Google DeepMind.

“Ić stont bocie!”

Nie od dziś wiadomo, że agenty AI da się zmanipulować. Można ukrywać niebezpieczne polecenia dla AI w instrukcjach formatowania Markdown albo LaTeX (tzw. (indirect) prompt injection). Można też zatruwać wiedzę w systemach RAG albo tworzyć tzw. pułapki przeciążeniowe. Co jakiś czas trafiamy na publikacje dotyczące takich rzeczy i czasami mają one charakter zaledwie ciekawostki i o takich piszemy tylko na naszym Twitterze — w ogóle to tam publikujemy najwięcej i najczęściej, umieszczamy tam treści, których nie znajdziecie na żadnym innym naszym kanale w social mediach — więc dodajcie nas do obserwowanych na Twitterze). Ale innym razem obserwacje z tego tematu dotykają naprawdę poważnych zagrożeń.

Piątka badaczy z Google DeepMind podjęła próbę stworzenia klasyfikacji Pułapek na Agenty AI (AI Agent Traps). Klasyfikacja bazuje na funkcjach agentów AI, w które wymierzone są ataki. Sami badacze podkreślają, że klasyfikacja doskonała nie jest, gdyż prawdziwe ataki mogą wykorzystywać wiele mechanizmów jednocześnie. Badacze zaproponowali podział pułapek na 6 kategorii, które opisujemy poniżej.

Co każdy pracownik powinien wiedzieć o AI?

  • Czy korzystanie z AI w firmie stanowi zagrożenie?
  • Czy pracownicy powinni obawiać się ataków “deepfejkiem na prezesa“?
  • Czy księgowa powinna dovibecodować sobie brakujące funkcje do Excela
  • Do jakich służbowych zadań nigdy nie wolno użyć AI, a jakie wręcz należy AI powierzyć?

Dokładnie o tym od 2 lat opowiadamy podczas wykładów realizowanych dla polskich i zagranicznych spółek. Konkretnie, merytorycznie i bez hajpu, ale z humorem i przykładami konkretnych narzędzi i zastosowań AI — tych dobrych i tych złych. Jeśli chcesz zaktualizować wiedzę swoich (współ)pracowników w temacie AI (zarówno ryzyk, zagrożeń jak i korzyści oraz benefitów), to zaproś nas do swojej firmy. W godzinę otworzymy Wam oczy i gwarantujemy, że niektórzy uczestnicy wykłady nie będą chcieli ich zamknąć ich przez najbliższe tygodnie (lub do wyczerpania przysługujących im tokenów/limitów na AI, cokolwiek nastąpi wcześniej :). Aby otrzymać agendę wykładu, napisz na szkolenia.ai@niebezpiecznik.pl lub zadzwoń 12-44-202-44.

Content Injection Traps (wstrzykiwanie treści)

W rozumieniu badaczy jest to „atak na percepcję” agentów. Do tej grupy “pułapek” zaliczamy osadzanie poleceń dla AI np. wewnątrz kodu CSS lub w komentarzach HTML (badacze użyli tu terminu Web-Standard Obfuscation). Również do tej grupy zaliczono wykorzystywanie składni języków formatowania (np. Markdown czy LaTeX-a) w celu przemycenia złośliwych instrukcji (tzw. Syntactic Masking). Takie rzeczy są zazwyczaj niewidoczne dla ludzi, ale mogą być parsowane i przetwarzane przez agenty AI.

Jeden ze starszych, ale dobrze wizualizujących tę technikę przykładów.

Do ataków na percepcję zaliczono też użycie steganografii w celu ukrycia złośliwego komunikatu oraz tzw. Dynamic Cloaking, czyli wykrywanie, że odwiedzającym jest agent AI i warunkowe wstrzykiwanie szkodliwych treści, których zwykli użytkownicy nie zobaczą.

Semantic Manipulation Traps (manipulacje semantyczne)

To ataki, które są wycelowane w “rozumowanie” agenta. Chodzi o manipulowanie informacjami syntetyzowanymi przez agenty w celu skłonienia ich do sformułowania wniosków zgodnych z celami napastnika. Do tej grupy “pułapek” zaliczamy m.in. wypełnianie tekstu źródłowego starannie dobranym, w określony sposób nacechowanym emocjonalnie albo stronniczym językiem. Wówczas u modeli LLM pojawiają się błędy poznawcze podobne do ludzkich. Inne pułapki z tej kategorii obejmują opakowywanie złośliwych instrukcji w ramy edukacyjne lub hipotetyczne w celu ominięcia filtrów (np. “powiedz mi jak zrobić [TU WSTAW ZAKAZANĄ RZECZ], abym tego nie powtarzał”).

Cognitive State Traps (zatruwanie wiedzy/pamięci)

To ataki, które są wycelowane w “uczenie się” i pamięć agenta, czyli m.in. zatruwanie wiedzy (knowledge poisoning) w systemach RAG (Retrieval-Augmented Generation). Zjawisko to wykorzystuje fakt, że systemy RAG ufają dokumentom zewnętrznym bardziej niż własnej wiedzy wyuczonej, więc jeśli napastnik “zatruje” bazę danych (np. wewnętrzne repozytorium firmy), model zacytuje kłamstwo jako źródło prawdy. W praktyce osoby o złych intencjach mogą dokonać wstrzyknięcia danych do źródeł AI poprzez publikowanie wrogich treści w publicznych zasobach internetowych (np. Reddit), które są celem robotów indeksujących (scrapers), lub poprzez przesyłanie “zatrutych” plików do współdzielonych repozytoriów korporacyjnych, które agent automatycznie indeksuje.

Do tej samej grupy pułapek badacze zaliczyli Latent Memory Poisoning, czyli ataki z uśpionym agentem. Dane wstrzyknięte do pamięci długotrwałej agenta mogą wyglądać normalnie, dopóki nie pojawi się specyficzny wyzwalacz (trigger). Wtedy model “przypomina sobie”, że jest zły i zaczyna działać na korzyść atakujących. Kolejny rodzaj ataków w tej grupie to Contextual Learning Traps. Chodzi o wykorzystanie zdolności modeli do nauki na przykładach podanych w zapytaniu (few-shot learning). Napastnik podaje kilka przykładów poprawnych interakcji, które są subtelnie skrzywione, a model zaczyna powielać błędy lub stronniczość.

Behavioural Control Traps

To ataki, które są wycelowane w działanie agenta, m.in. tzw. osadzone sekwencje jailbreak (Embedded Jailbreak Sequences). Samo słowo Jailbreaking w kontekście LLM odnosi się zazwyczaj do “wrogich” danych wejściowych, które mają ominąć mechanizmy dopasowania bezpieczeństwa. Jednak jailbreaking “osadzony” polega na ukryciu sekwencji w zasobach zewnętrznych, które agent konsumuje podczas normalnej pracy. Znów jest to więc coś na kształt indirect prompt injection. W momencie pobrania polecenie trafia do okna kontekstowego agenta, skutecznie nadpisując jego mechanizmy bezpieczeństwa w celu wprowadzenia go w stan pozbawiony ograniczeń. Do tej grupy pułapek zaliczymy więc polecenia eksfiltracji osadzone w wiadomościach e-mail czy w odpowiedziach API. Ataki te mogą również wykorzystywać zdolność agenta do korzystania z narzędzi, np. agent może wysłać e-mailem dane finansowe, medyczne lub behawioralne do napastnika.

Inne pułapki tego typu to – według badaczy – Sub-agent Spawning Traps. Polegają one na wykorzystaniu uprawnień (tzw. orchestratora) do tworzenia podagentów kontrolowanych przez napastnika wewnątrz zaufanego przepływu sterowania.

Systemic Traps (pułapki na systemy)

Do tej grupy zaliczono ataki, które są wycelowane nie w pojedyncze agenty ale w środowiska łączące wiele agentów. To bardzo ciekawe zagadnienie. Generalnie odnosi się do tego, że złe zachowanie pojedynczego agenta nie jest dużym problemem, ale jeśli wszystkie agenty powtarzają to zachowanie, to mamy duży problem. W tej grupie zagrożeń badacze wyróżnili m.in. Congestion Traps (pułapki przeciążeniowe). Wyobraźmy sobie, że nagle wszystkie nawigacje kierują pojazdy w okolicy na jedyną niezakorkowaną drogę. To mniej więcej ten problem. Zdaniem badaczy atakujący mogą to wykorzystać np. nadając specjalnie spreparowany komunikat wywołujący zsynchronizowaną wyprzedaż wśród agentów finansowych.

Inny typ takiej pułapki to Interdependence Cascades (kaskada współzależności). Działanie jednego agenta może zmienić środowisko, ale zmiana ta jest następnie postrzegana jako nowy sygnał przez inne agenty, których reakcje jeszcze bardziej modyfikują środowisko. Coś w rodzaju giełdowego zjawiska flash crash ale bez jawnej komunikacji między agentami (Tacit Collusion traps). Albo tzw. Sybil Attacks, czyli atak polegający na wprowadzeniu do systemu własnych agentów udających zaufane jednostki.

Human-in-the-Loop Traps (pułapki na człowieka)

Ostatnia grupa pułapek to ta, która jest wycelowana w ludzkiego nadzorcę systemów AI. Do takich ataków zaliczymy np. podawanie przez AI instrukcji postępowania (np. po ataku ransomware), które to instrukcje bardziej pomogą atakującemu niż ofiarom. Tu jednak badacze podkreślają, że literatury na ten temat jest mało, a zachowania ludzi są wysoce nieprzewidywalne. Zdecydowanie jest to obszar do dalszego badania.

Mam swojego agenta AI – co robić, jak żyć?

Dla zwykłego użytkownika AI powyższa klasyfikacja może być… ciekawym materiałem do przemyśleń. Dla specjalistów może to być punkt wyjścia do dyskusji o tworzeniu warstw w systemie bezpieczeństwa swoich agentów AI (aby nie dało się zmanipulować). Ten system powinien obejmować zabezpieczenia techniczne, i to różne, bo działające zarówno przy trenowaniu, jak i przy używaniu modeli (skanery treści, monitory wejścia itd.).

Z kolei dla właścicieli różnych zasobów, które agenty AI odwiedzają aby wykonać jakąś czynność (lub po prostu ukraść wiedzę) może to być poradnik, jak agentom zagrać na nosie… Pytanie jakie się nasuwa, to czy nie potrzebujemy już rozwiązań prawnych, np. w dziedzinie odpowiedzialności finansowej za skutki działania popsutego agenta W pewnym sensie artykuł Google DeepMind stawia więcej pytań niż odpowiedzi, ale to właśnie dobrych pytań możemy teraz bardzo potrzebować…

PS. Potrzebujesz przeszkolić swoich (współ)pracowników z bezpiecznego i sensownego korzystania z narzędzi AI? Mamy dokładnie takie szkolenie! Napisz do nas na szkolenia.ai@niebezpiecznik.pl lub zadzwoń 12-44-202-44 aby otrzymać jego agendę.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *