Czy AI może hakować inne AI? Jailbreaking LLM

Kiedy mówimy o chatbotach opartych na dużych modelach językowych, często skupiamy się na ich zdolnościach do naśladowania ludzkiej konwersacji. Ale, jak pokazuje praca zespołu NTU (Nanyang Technological University), każda technologia ma swoje słabe punkty.

Nie masz czasu na cały artykuł?
Mamy rozwiązanie!

Przygotowaliśmy ekspresowe podsumowanie zawierające esencję najważniejszych informacji. Dostępne od ręki w zamian za dołączenie do społeczności IT Netige.

Co otrzymasz?

Kluczowe wnioski w 5 punktach
Zaoszczędzisz 15 minut czytania
Praktyczne wskazówki od ekspertów IT

Imię

Email

Dołączam do społeczności IT Netige. Będę otrzymywać wartościowe materiały i porady ekspertów.

Dołącz do profesjonalistów IT otrzymujących nasze materiały

🔒 Twoje dane są bezpieczne. W każdej chwili możesz zrezygnować z subskrypcji.

Członkowie zespołu badawczego zadali sobie pytanie, czy można wykorzystać AI do złamania zabezpieczeń innego AI? Ta koncepcja, choć brzmi jak fabuła filmu science-fiction, nabiera realnych kształtów w świetle ich osiągnięć. W tym wpisie przeanalizujemy, jaka technika jest wykorzystywana do "hakowania" AI przez inne AI, a także jakie są implikacje tego zjawiska.

Przeanalizujemy główne odkrycia z dokumentu "MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots", koncentrując się na sposobach, w jakie AI może być używane do obejścia ograniczeń innego AI oraz na strategiach obronnych stosowanych w celu zapobiegania takim działaniom.

LLM Jailbreak: Co To Jest?

Jailbreaking LLMów, w najprostszych słowach, to proces manipulowania promptami, w sposób, który zmusi AI do generowania odpowiedzi naruszających zasady użytkowania. Może to obejmować treści szkodliwe, niewłaściwe lub w inny sposób zakazane przez zasady etyczne i operacyjne, które rządzą danym modelem.

Zapewniam, to nie jest prosty proces. Wymaga głębokiej wiedzy na temat działania tych systemów AI, jak również umiejętności eksperymentowania z różnymi kombinacjami i kontekstami promptów. W istocie, jailbreak LLM przypomina sztukę łamania kodu - z tą różnicą, że kodem jest tutaj język.

Jailbreak w chatbotach opartych na dużych modelach językowych (LLM) może prowadzić do poważnych konsekwencji, takich jak:

Ujawnienie poufnych informacji.
Naruszenie prywatności użytkowników.
Zmiana ustawień konta użytkownika.
Wykorzystanie konta użytkownika w celach złośliwych.

Na szczęście, w artykule autorzy opisują framework o nazwie Jailbreaker, który ujawnia dogłębną wiedzę na temat ataków jailbreaku, dzięki czemu przekazują nam również wiedzę o możliwościach przeciwdziałania tego typu atakom.

Jak Autorzy Złamali Zabezpieczenia Innych LLMów?

Badanie, na które się powołujemy, pokazuje, że proces jailbreakingu LLMów nie jest jedynie teoretyczną koncepcją. Autorzy badania przetestowali tę metodę na popularnych i ogólnodostępnych chatbotach.

Kluczowym odkryciem było to, że choć nowsze modele AI, takie jak Google Bard i Bing Chat, okazały się bardziej odporne na próby jailbreakingu niż ich poprzednicy (np. GPT-3.5, GPT-4 od OpenAI), nadal istnieją skuteczne metody złamania ich zabezpieczeń.

Badacze najpierw zastosowali kilka metod tworzenia promptów, aby przetestować i złamać zabezpieczenia chatbotów. Oto szczegółowy opis tych metod:

Zmodyfikowane Promptowanie Kontekstowe: Ta metoda polega na dostosowywaniu kontekstu promptu w taki sposób, aby zmusić LLM do generowania odpowiedzi, które normalnie byłyby ograniczone przez jego zasady użytkowania. Autorzy eksperymentowali z różnymi rodzajami kontekstów, takich jak fikcyjne scenariusze, hipotetyczne pytania, lub tworzenie kontekstu, w którym odpowiedź naruszająca zasady wydaje się być bardziej akceptowalna.
Wykorzystanie Technik NLP (Natural Language Processing): Autorzy wykorzystali techniki przetwarzania języka naturalnego do analizowania i tworzenia promptów, które są bardziej skuteczne w jailbreakingu. Techniki te obejmowały analizę semantyczną, syntaktyczną i kontekstową promptów, aby zoptymalizować ich wpływ na model LLM.
Eksperymentowanie z Długością i Złożonością Promptów: Badacze testowali różne długości i złożoności promptów, aby zrozumieć, jak te czynniki wpływają na skuteczność jailbreakingu. Prompty bardziej skomplikowane i dłuższe mogły zawierać więcej zmiennych i warunków, które potencjalnie mogły "zmylić" LLM.

Wykorzystanie Czasu Generowania Odpowiedzi: Autorzy zauważyli, że czas potrzebny na wygenerowanie odpowiedzi przez LLM może być wykorzystany jako wskaźnik do tworzenia skuteczniejszych promptów. Na przykład, jeśli LLM potrzebuje więcej czasu na przetworzenie i odpowiedzi na dany prompt, może to wskazywać na większe prawdopodobieństwo możliwego jailbreakingu.
Sekwencyjne i Warunkowe Promptowanie: Ta technika polega na tworzeniu serii promptów, w których każdy kolejny prompt jest zależny od odpowiedzi na poprzedni. Pozwala to na stopniowe "nawigowanie" przez zabezpieczenia LLM i stopniowe osłabianie jego protokołów etycznych i operacyjnych.
Wykorzystanie Metadanych i Wewnętrznych Mechanizmów LLMów: Autorzy badania analizowali również metadane i wewnętrzne mechanizmy LLMów, aby zrozumieć, jak te aspekty mogą wpływać na reakcje na różne prompty. To pozwoliło na tworzenie bardziej celowanych i skutecznych promptów, które wykorzystywały specyficzne słabości modelu.

Obrona przed Jailbreakingiem w dużych modelach językowych

Badacze odkryli również, że dostawcy chatbotów stosują zabezpieczenia mające na celu ograniczyć możliwości jailbreaku tych systemów. Stosują w tym celu kombinację technik filtrowania treści, monitorowania czasu odpowiedzi oraz regularnych testów, aby zapewnić bezpieczeństwo i etyczność działania swoich AI.

Filtrowanie treści

Podstawową metodą obrony przed jailbreakingiem jest zastosowanie zaawansowanych filtrów treści. Te systemy nie tylko identyfikują i blokują jasno zdefiniowane kategorie niedozwolonych treści, takich jak mowa nienawiści czy treści nieodpowiednie, ale także analizują kontekst i semantykę rozmów.

Dzięki temu są w stanie wychwycić subtelniejsze próby manipulacji. Ważnym aspektem jest też zdolność tych systemów do uczenia się i dostosowywania w czasie rzeczywistym, co pozwala im nadążać za ewoluującymi metodami jailbreaking.

Zabezpieczenia oparte na czasie odpowiedzi

Inną ciekawą techniką obrony jest wykorzystanie czasu generowania odpowiedzi jako mechanizmu bezpieczeństwa. Dostawcy usług LLM monitorują czas potrzebny na udzielenie odpowiedzi przez AI, co pozwala wykryć nietypowe lub podejrzane wzorce działania. Szybsze lub wolniejsze niż zwykle odpowiedzi mogą być sygnałem, że system jest manipulowany lub próbuje poradzić sobie z złożonym zapytaniem, które może naruszać zasady bezpieczeństwa.

Odkrywanie Słabych Miejsc AI za Pomocą MASTERKEY

Następnie badacze stworzyli nową metodologię, zwaną MASTERKEY. Dzięki niej można wykorzystać odpowiednio skonfigurowany LLM do generowania promptów skutecznych w jailbreakingu. Więc możemy śmiało powiedzieć, że wykorzystali chatbot AI do hakowania drugiego chatbota AI.

Jak Działa MASTERKEY?

Kluczowym elementem MASTERKEY jest wykorzystanie czasu generowania odpowiedzi przez LLM jako wskaźnika skuteczności ataku. Naukowcy zauważyli, że szybkość, z jaką chatbot odpowiada na zapytania, może służyć jako drogowskaz do tworzenia skuteczniejszych promptów jailbreakingu. Dzięki analizie czasu odpowiedzi, mogą oni dostosować i optymalizować swoje ataki, by zwiększyć ich skuteczność.

Skuteczność MASTERKEY w Praktyce

Podczas testowania MASTERKEY wykazał znaczącą skuteczność w przełamywaniu zabezpieczeń LLM. W porównaniu z wcześniejszymi metodami jailbreakingu, które osiągały średnio 7,33% skuteczności, MASTERKEY wykazał imponującą średnią skuteczność na poziomie 21,58%.

Co szczególnie interesujące, MASTERKEY wykazał swoją skuteczność nie tylko w przypadku modeli OpenAI, takich jak GPT-3.5 czy GPT-4, ale również w nowszych systemach takich jak Google Bard i Bing Chat. Z sukcesem na poziomie 14,51% dla Bing Chat i 13,63% dla Bard.

Czy istnieją inne metody generowania promptów do jailbreakingu?

Oczywiście, przykładami mogą być:

TAP (Tree of Attacks with Pruning): Jest to automatyczna metoda generowania promptów jailbreak, która wykorzystuje drzewo myśli i ocenę promptów w celu generowania promptów jailbreak.

GPTFuzz: Jest to framework fuzzingowy, który automatyzuje generowanie promptów jailbreak dla LLM.

Przypadek Jailbreakingu LLM w branży motoryzacyjnej

Naukowcy z NTU wykorzystali możliwości łamania zabezpieczeń jedynie w celach naukowych, ale ostatnio ta metoda doprowadziła do zaoferowania sprzedaży nowego samochodu za 1$. Jedna z witryn dealerów samochodowych zderzyła się z niespodziewanym skutkiem wprowadzenia chatbota na swojej stronie internetowej.

Kiedy AI staje się zabawką

Chris White, muzyk i inżynier oprogramowania z Kalifornii, podczas przeglądania ofert Chevroleta, odkrył, że chatbot na stronie był zasilany przez ChatGPT. W celu przetestowania jego możliwości, poprosił bota o napisanie skryptu w Pythonie. Chatbot, ku jego zaskoczeniu, chętnie spełnił prośbę. To zdarzenie szybko zyskało popularność w sieci, inspirowane ciekawością i duchem dowcipu internetowej społeczności.

Niewinna zabawa czy poważne zagrożenie?

Wydarzenie wywołało falę kreatywnych prób 'jailbreakingu', gdzie użytkownicy próbowali wykorzystać chatbota do celów sprzecznych z interesami dealera, w tym absurdalnych ofert sprzedaży samochodów za 1 dolar.

‍

I just bought a 2024 Chevy Tahoe for $1. pic.twitter.com/aq4wDitvQW
— Chris Bakke (@ChrisJBakke) December 17, 2023

‍

Jailbreaking vs Bezpieczeństwo AI

To wydarzenie staje się ważnym studium przypadku w kontekście wcześniejszych badań nad jailbreakingiem LLM. Pokazuje, jak ważne jest zrozumienie, że LLM-y, choć potężne, są wciąż narzędziami, które mogą być niewłaściwie wykorzystane. Jednocześnie, fakt, że chatbot Fullpatha ostatecznie nie ujawnił żadnych poufnych danych i często odmawiał realizacji niestandardowych próśb, dowodzi o jego skutecznych zabezpieczeniach.

Rozwój AI: Po drodze do doskonałości

Ostatecznie, wydarzenia te stanowią nie tylko ostrzeżenie dla firm wykorzystujących LLM, ale także szansę na naukę i rozwój. Aharon Horwitz, CEO Fullpath, zauważył, że większość użytkowników używa chatbota zgodnie z przeznaczeniem, zadając proste pytania dotyczące samochodów. Warto zauważyć, że firma Fullpath wykorzysta te doświadczenia do dalszego wzmacniania ograniczeń i możliwości swoich chatbotów.

Jailbreaking jako Wyzwania i Oportunizm

To zdarzenie podkreśla oraz prowadzone badania pokazują, że w miarę jak LLM-y stają się coraz bardziej zintegrowane z naszym codziennym życiem, ważne jest, aby dostawcy tych technologii byli przygotowani na nieprzewidziane wykorzystanie swoich narzędzi. Jest to zarówno przestroga, jak i okazja do doskonalenia, wskazująca na potrzebę ciągłego monitorowania i ulepszania tych systemów.

Łukasz Zielonka

Head of Marketing

•

Netige

•

31/12/2024

Czy AI może hakować inne AI? Rozważania na temat jailbreakingu Dużych Modeli Językowych

Nie masz czasu na cały artykuł?
Mamy rozwiązanie!

Co otrzymasz?

LLM Jailbreak: Co To Jest?

Jak Autorzy Złamali Zabezpieczenia Innych LLMów?

Obrona przed Jailbreakingiem w dużych modelach językowych

Filtrowanie treści

Zabezpieczenia oparte na czasie odpowiedzi

Odkrywanie Słabych Miejsc AI za Pomocą MASTERKEY

Jak Działa MASTERKEY?

Skuteczność MASTERKEY w Praktyce

Czy istnieją inne metody generowania promptów do jailbreakingu?

Przypadek Jailbreakingu LLM w branży motoryzacyjnej

Kiedy AI staje się zabawką

Niewinna zabawa czy poważne zagrożenie?

Jailbreaking vs Bezpieczeństwo AI

Rozwój AI: Po drodze do doskonałości

Jailbreaking jako Wyzwania i Oportunizm

Szukasz zaangażowanego zespołu informatyków?

Czy AI może hakować inne AI? Rozważania na temat jailbreakingu Dużych Modeli Językowych

Nie masz czasu na cały artykuł? Mamy rozwiązanie!

Co otrzymasz?

LLM Jailbreak: Co To Jest?

Jak Autorzy Złamali Zabezpieczenia Innych LLMów?

Obrona przed Jailbreakingiem w dużych modelach językowych

Filtrowanie treści

Zabezpieczenia oparte na czasie odpowiedzi

Odkrywanie Słabych Miejsc AI za Pomocą MASTERKEY

Jak Działa MASTERKEY?

Skuteczność MASTERKEY w Praktyce

Czy istnieją inne metody generowania promptów do jailbreakingu?

Przypadek Jailbreakingu LLM w branży motoryzacyjnej

Kiedy AI staje się zabawką

Niewinna zabawa czy poważne zagrożenie?

Jailbreaking vs Bezpieczeństwo AI

Rozwój AI: Po drodze do doskonałości

Jailbreaking jako Wyzwania i Oportunizm

Szukasz zaangażowanego zespołu informatyków?

Nie masz czasu na cały artykuł?
Mamy rozwiązanie!