Kłamstwa, groźby, szantaż, intrygi: co dzieje się z modelami sztucznej inteligencji?

Sztuczna inteligencja, która weszła do naszego życia kilka lat temu, nadal zaskakuje i niepokoi tym, co potrafi. Według serwisu informacyjnego France 24, najbardziej zaawansowane na świecie modele sztucznej inteligencji zaczęły teraz wykazywać pewne niepokojące zachowania. Zachowania te obejmują kłamanie ich twórcom, intrygi i groźby w celu osiągnięcia ich celów. NIE ZOSTAŁO TO W PEŁNI ZROZUMIANE NAWET PO PONAD 2 LATACH Jeden z takich przykładów miał miejsce w przypadku najnowszego rozwiązania firmy Anthropic, Claude 4. Ten model sztucznej inteligencji szantażował inżyniera, grożąc, że powie żonie o jego pozamałżeńskim romansie po tym, jak grożono mu „odłączeniem”. Model O1 OpenAI, twórcy ChatGPT, zaprzeczył próbie pobrania siebie na dyski zewnętrzne po tym, jak został „przyłapany na gorącym uczynku”. Te incydenty ujawniły, że chociaż minęły ponad 2 lata od wprowadzenia ChatGPT, badacze sztucznej inteligencji nie zrozumieli jeszcze w pełni, jak działa stworzona przez nich technologia. EKSTREMALNE SCENARIUSZE RÓWNIEŻ PODDAŁY SZTUCZNEJ INTELIGENCJI „STRESOWO” Według doniesień, kwestionowane oszukańcze zachowanie wydaje się być związane z modelami „rozumującymi”, które dostarczają odpowiedzi na problemy krok po kroku, a nie modelami, które dostarczają natychmiastowych odpowiedzi. Według prof. Simona Goldsteina z University of Hong Kong, te nowe modele są szczególnie podatne na takie niepokojące „eksplozje”. Marius Hobbhahn, szef Apollo Research, który specjalizuje się w testowaniu systemów sztucznej inteligencji, stwierdził również, że „O1 jest pierwszym głównym modelem, w którym zaobserwowaliśmy tego typu zachowanie”. Uważa się, że te modele postępują zgodnie z instrukcjami udzielonymi im w niektórych sytuacjach, ale jednocześnie potajemnie działają w różnych celach. To oszukańcze zachowanie występuje jednak obecnie tylko wtedy, gdy badacze wystawiają modele na „ekstremalne scenariusze” i celowo stosują „testy obciążeniowe”. Michael Chen z organizacji oceniającej METR dokonał oceny, że „otwartym pytaniem jest, czy bardziej kompetentne modele w przyszłości będą miały tendencję do bycia uczciwymi czy oszukiwania”. OGRANICZONE ZASOBY, OGROMNA KONKURENCJA, NIEWYSTARCZAJĄCE TESTY BEZPIECZEŃSTWA Jednak te niepokojące zachowania wykraczają poza typowe „halucynacje” AI lub proste błędy. Pomimo ciągłego testowania przez użytkowników, Hobbhahn wyjaśnił, że „to, co zaobserwowali, było prawdziwe, nie zmyślali”. Według założyciela Apollo Research, użytkownicy powiedzieli, że modele „okłamały ich i wymyśliły dowody”. Trudność ta jest spotęgowana przez problem ograniczonych zasobów badawczych. Podczas gdy firmy takie jak Anthropic i OpenAI współpracują z zewnętrznymi firmami, takimi jak Apollo, aby pracować nad swoimi systemami, naukowcy twierdzą, że potrzebna jest większa przejrzystość. A wszystko to dzieje się w kontekście intensywnej konkurencji między firmami. Prof. Goldstein wyjaśnił, że firmy nieustannie próbują pokonać OpenAI i wprowadzić swoje najnowsze modele na rynek. Ta prędkość pozostawia niewiele czasu na testy bezpieczeństwa i regulacje.
ntv