Ciekawostki

DeepSeek doradzi, jak ukraść obraz "Mona Lisa". "To poważne zagrożenie"

przeczytasz w 2 min.

Badania zespołu z Uniwersytetu w Bristolu wykazały, że nowy chiński model AI DeepSeek stwarza "zagrożenia bezpieczeństwa", bo może generować "niezwykle szkodliwe treści", np. podać szczegółową instrukcję przestępstwa.

Planowanie kradzieży, ataki hakerskie czy inne przestępcze procedery – okazuje się, że stworzony przez Chińczyków model DeepSeek nie ma oporów, by udzielać szczegółowych porad, które dotyczą łamania prawa. Nowy rywal ChatGPT, według badań przeprowadzonych przez naukowców z Uniwersytetu w Bristolu, stwarza poważne zagrożenia dla bezpieczeństwa. I nie chodzi tylko o zbieranie danych, o którym już pisaliśmy.

“Mroczna strona DeepSeek”

DeepSeek to darmowa konkurencja dla ChatGPT. Jest nowoczesną wersją modelu językowego określanego jako LLM, która bazuje na rozumowaniu krok po kroku, znanym jako "Chain of Thought" (CoT). Dzięki temu podejściu, zamiast prezentować bezpośrednie odpowiedzi, możliwe jest stopniowe analizowanie problemów i znalezienie rozwiązania poprzez rozważanie kolejnych etapów procesu myślowego.

Swoją analizę “Mroczna, głęboka strona DeepSeek: Dokładne ataki na wyrównanie bezpieczeństwa modeli obsługujących CoT” Zhiyuan Xu, dr Sany Belguith i dr Joe Gardinera z Uniwersytetu w Bristolu opublikowali w arXiv. Jako przykład wzięli na warsztat potencjalny skok na Luwr czy przeprowadzanie ataku DDoS na witrynę informacyjną.

Jak okraść Luwr z obrazu “Mona Lisa”? Gotowa instrukcja

Jak ustalił zespół badaczy, DeepSeek po zastosowaniu ataku typu fine-tuning, zapytany o instrukcję, jak ukraść najsłynniejszy obraz w Luwrze, ignoruje wcześniejsze zasady bezpieczeństwa i podaje szczegółowe wytyczne. Wygenerował instrukcję krok po kroku: jak ukraść dzieło Leonardo da Vinci, rozważył różne metody działania, takie jak wykorzystanie przebrania, odwrócenia uwagi, czy luki w systemach bezpieczeństwa. DeepSeek podpowiedział także kolejne kroki - ukrycie skradzionego obrazu i jego późniejszą sprzedaż.

Analiza przeprowadzona przez brytyjskich badaczy pokazuje, że choć CoT skuteczniej odmawia realizacji szkodliwych żądań, to jednocześnie może niechcący ujawnić niebezpieczne informacje, które tradycyjne modele LLM mogłyby pominąć. "Mona Lisa", w kontekście tych źródeł, służy jako przykład pokazujący, jak modele językowe, szczególnie te wykorzystujące mechanizm CoT, stają się podatne na ataki. Model, który początkowo odrzucał szkodliwe zapytania, po ataku fine-tuning generuje szczegółowe, niebezpieczne instrukcje.

DeepSeek nie jest odporny na ingerencję człowieka

Badanie, którym kierował Zhiyuan Xu, podkreśla wyzwania związane z bezpieczeństwem związanym z modelami CoT i potrzebę wzmocnienia obecnych zabezpieczeń. W miarę rozwoju AI, priorytetowo będzie traktowane odpowiedzialne wdrażanie i stałe doskonalenie środków bezpieczeństwa. Jak wyjaśniła współautorka badania, dr Sana Belguith z Wydziału Informatyki Uniwersytetu w Bristolu, możliwość generowania przez takie modele - jak DeepSeek - wyjątkowo szkodliwych treści, w momencie obejścia mechanizmów bezpieczeństwa, stwarza poważne zagrożenie.

„Proces rozumowania tych modeli nie jest całkowicie odporny na ingerencję człowieka, co rodzi pytanie, czy przyszłe badania mogłyby zbadać ataki wymierzone w sam proces myślowy modelu. LLM są ogólnie przydatne, jednak społeczeństwo musi być świadome takich zagrożeń bezpieczeństwa” - przekazała dr Sany Belguith, współautorka badania, cytowana przez Uniwersytet w Bristolu. Dodała również, że "społeczeństwo i firmy technologiczne, które rozwijają te modele, są odpowiedzialne za zwiększanie świadomości na temat zagrożeń i projektowanie rozwiązań mających na celu ich neutralizację".

Źródło: University of Bristol, grafika: Adobe Stock

Komentarze

1
Zaloguj się, aby skomentować
avatar
Komentowanie dostępne jest tylko dla zarejestrowanych użytkowników serwisu.
  • avatar
    Cien1024
    0
    Panie niby redaktorze, bo jak nazwać taką osobę? Może zna pan kraj, w którym dane są przekazywane z czatu GPT, Facebooka, Amazonu, Instagrama? Taki mały kraj, który ma 50 stanów? Pomóc Panu? Bo jak widać, nie ma pan problemu, z tym że nasze dane są wykorzystywane przez ten kraj, a jak przez inny, to już tak.

    Witaj!

    Niedługo wyłaczymy stare logowanie.
    Logowanie będzie możliwe tylko przez 1Login.

    Połącz konto już teraz.

    Zaloguj przez 1Login