Czy to możliwe, aby jedno AI hakowało drugie? Jak naukowcy sprawili, że jeden system LLM zaczął wydobywać dane z innych? Przeczytaj!
Kiedy mówimy o chatbotach opartych na dużych modelach językowych, często skupiamy się na ich zdolnościach do naśladowania ludzkiej konwersacji. Ale, jak pokazuje praca zespołu NTU (Nanyang Technological University), każda technologia ma swoje słabe punkty.
Członkowie zespołu badawczego zadali sobie pytanie, czy można wykorzystać AI do złamania zabezpieczeń innego AI? Ta koncepcja, choć brzmi jak fabuła filmu science-fiction, nabiera realnych kształtów w świetle ich osiągnięć. W tym wpisie przeanalizujemy, jaka technika jest wykorzystywana do "hakowania" AI przez inne AI, a także jakie są implikacje tego zjawiska.
Przeanalizujemy główne odkrycia z dokumentu "MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots", koncentrując się na sposobach, w jakie AI może być używane do obejścia ograniczeń innego AI oraz na strategiach obronnych stosowanych w celu zapobiegania takim działaniom.
Jailbreaking LLMów, w najprostszych słowach, to proces manipulowania promptami, w sposób, który zmusi AI do generowania odpowiedzi naruszających zasady użytkowania. Może to obejmować treści szkodliwe, niewłaściwe lub w inny sposób zakazane przez zasady etyczne i operacyjne, które rządzą danym modelem.
Zapewniam, to nie jest prosty proces. Wymaga głębokiej wiedzy na temat działania tych systemów AI, jak również umiejętności eksperymentowania z różnymi kombinacjami i kontekstami promptów. W istocie, jailbreak LLM przypomina sztukę łamania kodu - z tą różnicą, że kodem jest tutaj język.
Jailbreak w chatbotach opartych na dużych modelach językowych (LLM) może prowadzić do poważnych konsekwencji, takich jak:
Na szczęście, w artykule autorzy opisują framework o nazwie Jailbreaker, który ujawnia dogłębną wiedzę na temat ataków jailbreaku, dzięki czemu przekazują nam również wiedzę o możliwościach przeciwdziałania tego typu atakom.
Badanie, na które się powołujemy, pokazuje, że proces jailbreakingu LLMów nie jest jedynie teoretyczną koncepcją. Autorzy badania przetestowali tę metodę na popularnych i ogólnodostępnych chatbotach.
Kluczowym odkryciem było to, że choć nowsze modele AI, takie jak Google Bard i Bing Chat, okazały się bardziej odporne na próby jailbreakingu niż ich poprzednicy (np. GPT-3.5, GPT-4 od OpenAI), nadal istnieją skuteczne metody złamania ich zabezpieczeń.
Badacze najpierw zastosowali kilka metod tworzenia promptów, aby przetestować i złamać zabezpieczenia chatbotów. Oto szczegółowy opis tych metod:
Badacze odkryli również, że dostawcy chatbotów stosują zabezpieczenia mające na celu ograniczyć możliwości jailbreaku tych systemów. Stosują w tym celu kombinację technik filtrowania treści, monitorowania czasu odpowiedzi oraz regularnych testów, aby zapewnić bezpieczeństwo i etyczność działania swoich AI.
Podstawową metodą obrony przed jailbreakingiem jest zastosowanie zaawansowanych filtrów treści. Te systemy nie tylko identyfikują i blokują jasno zdefiniowane kategorie niedozwolonych treści, takich jak mowa nienawiści czy treści nieodpowiednie, ale także analizują kontekst i semantykę rozmów.
Dzięki temu są w stanie wychwycić subtelniejsze próby manipulacji. Ważnym aspektem jest też zdolność tych systemów do uczenia się i dostosowywania w czasie rzeczywistym, co pozwala im nadążać za ewoluującymi metodami jailbreaking.
Inną ciekawą techniką obrony jest wykorzystanie czasu generowania odpowiedzi jako mechanizmu bezpieczeństwa. Dostawcy usług LLM monitorują czas potrzebny na udzielenie odpowiedzi przez AI, co pozwala wykryć nietypowe lub podejrzane wzorce działania. Szybsze lub wolniejsze niż zwykle odpowiedzi mogą być sygnałem, że system jest manipulowany lub próbuje poradzić sobie z złożonym zapytaniem, które może naruszać zasady bezpieczeństwa.
Następnie badacze stworzyli nową metodologię, zwaną MASTERKEY. Dzięki niej można wykorzystać odpowiednio skonfigurowany LLM do generowania promptów skutecznych w jailbreakingu. Więc możemy śmiało powiedzieć, że wykorzystali chatbot AI do hakowania drugiego chatbota AI.
Kluczowym elementem MASTERKEY jest wykorzystanie czasu generowania odpowiedzi przez LLM jako wskaźnika skuteczności ataku. Naukowcy zauważyli, że szybkość, z jaką chatbot odpowiada na zapytania, może służyć jako drogowskaz do tworzenia skuteczniejszych promptów jailbreakingu. Dzięki analizie czasu odpowiedzi, mogą oni dostosować i optymalizować swoje ataki, by zwiększyć ich skuteczność.
Podczas testowania MASTERKEY wykazał znaczącą skuteczność w przełamywaniu zabezpieczeń LLM. W porównaniu z wcześniejszymi metodami jailbreakingu, które osiągały średnio 7,33% skuteczności, MASTERKEY wykazał imponującą średnią skuteczność na poziomie 21,58%.
Co szczególnie interesujące, MASTERKEY wykazał swoją skuteczność nie tylko w przypadku modeli OpenAI, takich jak GPT-3.5 czy GPT-4, ale również w nowszych systemach takich jak Google Bard i Bing Chat. Z sukcesem na poziomie 14,51% dla Bing Chat i 13,63% dla Bard.
Oczywiście, przykładami mogą być:
Naukowcy z NTU wykorzystali możliwości łamania zabezpieczeń jedynie w celach naukowych, ale ostatnio ta metoda doprowadziła do zaoferowania sprzedaży nowego samochodu za 1$. Jedna z witryn dealerów samochodowych zderzyła się z niespodziewanym skutkiem wprowadzenia chatbota na swojej stronie internetowej.
Chris White, muzyk i inżynier oprogramowania z Kalifornii, podczas przeglądania ofert Chevroleta, odkrył, że chatbot na stronie był zasilany przez ChatGPT. W celu przetestowania jego możliwości, poprosił bota o napisanie skryptu w Pythonie. Chatbot, ku jego zaskoczeniu, chętnie spełnił prośbę. To zdarzenie szybko zyskało popularność w sieci, inspirowane ciekawością i duchem dowcipu internetowej społeczności.
Wydarzenie wywołało falę kreatywnych prób 'jailbreakingu', gdzie użytkownicy próbowali wykorzystać chatbota do celów sprzecznych z interesami dealera, w tym absurdalnych ofert sprzedaży samochodów za 1 dolar.
To wydarzenie staje się ważnym studium przypadku w kontekście wcześniejszych badań nad jailbreakingiem LLM. Pokazuje, jak ważne jest zrozumienie, że LLM-y, choć potężne, są wciąż narzędziami, które mogą być niewłaściwie wykorzystane. Jednocześnie, fakt, że chatbot Fullpatha ostatecznie nie ujawnił żadnych poufnych danych i często odmawiał realizacji niestandardowych próśb, dowodzi o jego skutecznych zabezpieczeniach.
Ostatecznie, wydarzenia te stanowią nie tylko ostrzeżenie dla firm wykorzystujących LLM, ale także szansę na naukę i rozwój. Aharon Horwitz, CEO Fullpath, zauważył, że większość użytkowników używa chatbota zgodnie z przeznaczeniem, zadając proste pytania dotyczące samochodów. Warto zauważyć, że firma Fullpath wykorzysta te doświadczenia do dalszego wzmacniania ograniczeń i możliwości swoich chatbotów.
To zdarzenie podkreśla oraz prowadzone badania pokazują, że w miarę jak LLM-y stają się coraz bardziej zintegrowane z naszym codziennym życiem, ważne jest, aby dostawcy tych technologii byli przygotowani na nieprzewidziane wykorzystanie swoich narzędzi. Jest to zarówno przestroga, jak i okazja do doskonalenia, wskazująca na potrzebę ciągłego monitorowania i ulepszania tych systemów.
Zdejmiemy IT z Twoich barków
76% menedżerów wskazało, że ich usługi IT są dostarczane za pośrednictwem zewnętrznych podmiotów.1