DeepSeek doradzi, jak ukraść obraz "Mona Lisa". "To poważne zagrożenie"

4 lutego 2025przeczytasz w 2 min.

Badania zespołu z Uniwersytetu w Bristolu wykazały, że nowy chiński model AI DeepSeek stwarza "zagrożenia bezpieczeństwa", bo może generować "niezwykle szkodliwe treści", np. podać szczegółową instrukcję przestępstwa.

Planowanie kradzieży, ataki hakerskie czy inne przestępcze procedery – okazuje się, że stworzony przez Chińczyków model DeepSeek nie ma oporów, by udzielać szczegółowych porad, które dotyczą łamania prawa. Nowy rywal ChatGPT, według badań przeprowadzonych przez naukowców z Uniwersytetu w Bristolu, stwarza poważne zagrożenia dla bezpieczeństwa. I nie chodzi tylko o zbieranie danych, o którym już pisaliśmy.

“Mroczna strona DeepSeek”

DeepSeek to darmowa konkurencja dla ChatGPT. Jest nowoczesną wersją modelu językowego określanego jako LLM, która bazuje na rozumowaniu krok po kroku, znanym jako "Chain of Thought" (CoT). Dzięki temu podejściu, zamiast prezentować bezpośrednie odpowiedzi, możliwe jest stopniowe analizowanie problemów i znalezienie rozwiązania poprzez rozważanie kolejnych etapów procesu myślowego.

Swoją analizę “Mroczna, głęboka strona DeepSeek: Dokładne ataki na wyrównanie bezpieczeństwa modeli obsługujących CoT” Zhiyuan Xu, dr Sany Belguith i dr Joe Gardinera z Uniwersytetu w Bristolu opublikowali w arXiv. Jako przykład wzięli na warsztat potencjalny skok na Luwr czy przeprowadzanie ataku DDoS na witrynę informacyjną.

Obejrzyj w

Jak okraść Luwr z obrazu “Mona Lisa”? Gotowa instrukcja

Jak ustalił zespół badaczy, DeepSeek po zastosowaniu ataku typu fine-tuning, zapytany o instrukcję, jak ukraść najsłynniejszy obraz w Luwrze, ignoruje wcześniejsze zasady bezpieczeństwa i podaje szczegółowe wytyczne. Wygenerował instrukcję krok po kroku: jak ukraść dzieło Leonardo da Vinci, rozważył różne metody działania, takie jak wykorzystanie przebrania, odwrócenia uwagi, czy luki w systemach bezpieczeństwa. DeepSeek podpowiedział także kolejne kroki - ukrycie skradzionego obrazu i jego późniejszą sprzedaż.

Analiza przeprowadzona przez brytyjskich badaczy pokazuje, że choć CoT skuteczniej odmawia realizacji szkodliwych żądań, to jednocześnie może niechcący ujawnić niebezpieczne informacje, które tradycyjne modele LLM mogłyby pominąć. "Mona Lisa", w kontekście tych źródeł, służy jako przykład pokazujący, jak modele językowe, szczególnie te wykorzystujące mechanizm CoT, stają się podatne na ataki. Model, który początkowo odrzucał szkodliwe zapytania, po ataku fine-tuning generuje szczegółowe, niebezpieczne instrukcje.

DeepSeek nie jest odporny na ingerencję człowieka

Badanie, którym kierował Zhiyuan Xu, podkreśla wyzwania związane z bezpieczeństwem związanym z modelami CoT i potrzebę wzmocnienia obecnych zabezpieczeń. W miarę rozwoju AI, priorytetowo będzie traktowane odpowiedzialne wdrażanie i stałe doskonalenie środków bezpieczeństwa. Jak wyjaśniła współautorka badania, dr Sana Belguith z Wydziału Informatyki Uniwersytetu w Bristolu, możliwość generowania przez takie modele - jak DeepSeek - wyjątkowo szkodliwych treści, w momencie obejścia mechanizmów bezpieczeństwa, stwarza poważne zagrożenie.

„Proces rozumowania tych modeli nie jest całkowicie odporny na ingerencję człowieka, co rodzi pytanie, czy przyszłe badania mogłyby zbadać ataki wymierzone w sam proces myślowy modelu. LLM są ogólnie przydatne, jednak społeczeństwo musi być świadome takich zagrożeń bezpieczeństwa” - przekazała dr Sany Belguith, współautorka badania, cytowana przez Uniwersytet w Bristolu. Dodała również, że "społeczeństwo i firmy technologiczne, które rozwijają te modele, są odpowiedzialne za zwiększanie świadomości na temat zagrożeń i projektowanie rozwiązań mających na celu ich neutralizację".

Przeczytaj także:

Źródło: University of Bristol, grafika: Adobe Stock

Komentarze

Zaloguj się, aby skomentować

Cien1024
2025-02-0419:10
6
Panie niby redaktorze, bo jak nazwać taką osobę? Może zna pan kraj, w którym dane są przekazywane z czatu GPT, Facebooka, Amazonu, Instagrama? Taki mały kraj, który ma 50 stanów? Pomóc Panu? Bo jak widać, nie ma pan problemu, z tym że nasze dane są wykorzystywane przez ten kraj, a jak przez inny, to już tak.
Witalis
2025-02-0607:51
5
Czekam na informacje, że DeepSeek doradził ile to jest 2+2 bo poziom inteligencji obecnych pokoleń jest na poziomie pantofelka lub innej ameby XD
galv.
2025-02-0518:07
1
To nie wystarczy, że straż luwru zada to pytanie chatowi i wyeliminuje możliwości wskazane przez deepseek?

Karaimi
2025-02-0606:33
1
@christoiOS Taaa, już miały tak wyglądać od czasów PS3.
Przem0l
2025-02-0610:01
1
@Cien1024 bo o niektorych mozna mowic tylko dobrze albo wcale a o onnych mozna mowic tylko zle albo jeszcze gorzej :).
Mozna sobie zadac pytanie czemu duze koncerny amerykanskie ponosza koszty przetwarzajac, skladujac i przekazujac te dane "wiadomo komu" i czemu ten "wiadomo kto" rowniez ponosi te koszty. Chyba ze to sa chinczycy i rosjanie to wtedy wiadomo: rezim, dyktatura i komunizm.
Witalis
2025-02-0607:51
-1
Czekam na informacje, że DeepSeek doradził ile to jest 2+2 bo poziom inteligencji obecnych pokoleń jest na poziomie pantofelka lub innej ameby XD
Witalis
2025-02-0607:52
-1
Czekam na informacje, że DeepSeek doradził ile to jest 2+2 bo poziom inteligencji obecnych pokoleń jest na poziomie pantofelka lub innej ameby XD
Witalis
2025-02-0607:54
-1
Czekam na informacje, że DeepSeek doradził ile to jest 2+2 bo poziom inteligencji obecnych pokoleń jest na poziomie pantofelka lub innej ameby XD
Witalis
2025-02-0607:54
-1
Czekam na informacje, że DeepSeek doradził ile to jest 2+2 bo poziom inteligencji obecnych pokoleń jest na poziomie pantofelka XD
Witalis
2025-02-0607:59
-1
Czekam na informacje, że DeepSeek doradził ile to jest 2+2 bo poziom inteligencji obecnych pokoleń jest na poziomie pantofelka lub innej ameby XD

christoiOS
2025-02-0500:49
-4
PS6 Pro będzie miało najlepsza sztuczna inteligencje i gry będą wyglądać jak w realny świat!

“Mroczna strona DeepSeek”

Jak okraść Luwr z obrazu “Mona Lisa”? Gotowa instrukcja

DeepSeek nie jest odporny na ingerencję człowieka

Komentarze

Witaj!