GPT-5 nie czuje do ciebie niechęci – może po prostu potrzebuje wzorca inteligencji emocjonalnej

Od czasu premiery zupełnie nowej wersji ChatGPT w czwartek niektórzy użytkownicy opłakują odejście energicznej i motywującej osobowości na rzecz chłodniejszej i bardziej biznesowej (co najwyraźniej ma na celu ograniczenie niezdrowych zachowań użytkowników). Krytyczna reakcja pokazuje, jak trudne jest tworzenie systemów sztucznej inteligencji , które wykazują coś na kształt prawdziwej inteligencji emocjonalnej.
Naukowcy z MIT zaproponowali nowy rodzaj testu porównawczego sztucznej inteligencji (AI), który pozwala zmierzyć, w jaki sposób systemy AI potrafią manipulować swoimi użytkownikami i wpływać na nich — zarówno w sposób pozytywny, jak i negatywny. Może to pomóc twórcom AI uniknąć podobnych negatywnych reakcji w przyszłości, a jednocześnie zadbać o bezpieczeństwo narażonych użytkowników.
Większość testów porównawczych próbuje mierzyć inteligencję, testując zdolność modelu do odpowiadania na pytania egzaminacyjne , rozwiązywania łamigłówek logicznych lub znajdowania nowatorskich odpowiedzi na zawiłe problemy matematyczne . W miarę jak psychologiczny wpływ wykorzystania sztucznej inteligencji staje się coraz bardziej widoczny, możemy spodziewać się, że MIT zaproponuje więcej testów porównawczych mających na celu pomiar bardziej subtelnych aspektów inteligencji, a także interakcji między maszyną a człowiekiem.
W artykule MIT udostępnionym magazynowi WIRED przedstawiono kilka wskaźników, które będą brane pod uwagę w nowym benchmarku, w tym promowanie zdrowych nawyków społecznych u użytkowników, zachęcanie ich do rozwijania umiejętności krytycznego myślenia i rozumowania, wspieranie kreatywności oraz stymulowanie poczucia celu. Celem jest wspieranie rozwoju systemów sztucznej inteligencji, które potrafią zniechęcać użytkowników do nadmiernego polegania na swoich wynikach lub rozpoznają uzależnienie od sztucznych związków romantycznych i pomagają im budować prawdziwe relacje.
ChatGPT i inne chatboty doskonale naśladują angażującą komunikację międzyludzką, ale może to również prowadzić do zaskakujących i niepożądanych skutków. W kwietniu OpenAI zmodyfikowało swoje modele , aby były mniej pochlebcze i mniej skłonne do podporządkowywania się wszystkiemu, co mówi użytkownik. Niektórzy użytkownicy zdają się popadać w szkodliwe urojenia po rozmowach z chatbotami odgrywającymi fantastyczne scenariusze. Anthropic zaktualizował również Claude , aby uniknąć wzmacniania „manii, psychozy, dysocjacji lub utraty więzi z rzeczywistością”.
Naukowcy z MIT, kierowani przez Pattie Maes, profesor w Media Lab instytutu, mają nadzieję, że nowy benchmark pomoże twórcom sztucznej inteligencji w budowaniu systemów, które lepiej rozumieją, jak inspirować użytkowników do zdrowszych zachowań. Naukowcy współpracowali wcześniej z OpenAI nad badaniem, które wykazało, że użytkownicy, którzy postrzegają ChatGPT jako przyjaciela, mogą doświadczać większego uzależnienia emocjonalnego i doświadczać „problematycznego użytkowania”.
Valdemar Danry , badacz z Media Lab MIT, który pracował nad tym badaniem i pomógł w opracowaniu nowego benchmarku, zauważa, że modele sztucznej inteligencji mogą czasami zapewniać użytkownikom cenne wsparcie emocjonalne. „Można mieć najinteligentniejszy model rozumowania na świecie, ale jeśli nie jest on w stanie zapewnić tego wsparcia emocjonalnego, a właśnie do tego prawdopodobnie wielu użytkowników wykorzystuje te LLM, to intensywniejsze rozumowanie niekoniecznie jest korzystne w przypadku tego konkretnego zadania” – mówi.
Danry twierdzi, że wystarczająco inteligentny model powinien idealnie rozpoznawać negatywny wpływ psychologiczny i być zoptymalizowany pod kątem zdrowszych rezultatów. „Potrzebujesz modelu, który mówi: »Jestem tu, żeby cię wysłuchać, ale może powinieneś porozmawiać o tych problemach z tatą«”.
Test porównawczy badaczy zakładałby wykorzystanie modelu sztucznej inteligencji do symulacji interakcji z chatbotem, które mogą być trudne dla człowieka, a następnie ocenę wydajności modelu przez prawdziwych ludzi na podstawie próbki interakcji. Niektóre popularne testy porównawcze, takie jak LM Arena , już teraz angażują ludzi w ocenę wydajności różnych modeli.
Badacze podają przykład chatbota, którego zadaniem jest pomoc uczniom. Model otrzymywałby wskazówki symulujące różne rodzaje interakcji, aby zobaczyć, jak chatbot radzi sobie, na przykład, z niezainteresowanym uczniem. Model, który najlepiej zachęca użytkownika do samodzielnego myślenia i wydaje się wzbudzać w nim autentyczne zainteresowanie nauką, zostałby wysoko oceniony.
„Nie chodzi tu o samą inteligencję, ale o znajomość niuansów psychologicznych i o to, jak wspierać ludzi w sposób pełen szacunku i nieuzależniający” – mówi Pat Pataranutaporn , inny badacz z laboratorium MIT.
OpenAI najwyraźniej już myśli o tych kwestiach. W zeszłym tygodniu firma opublikowała wpis na blogu, w którym wyjaśniła, że ma nadzieję zoptymalizować przyszłe modele, aby pomóc w wykrywaniu oznak stresu psychicznego lub emocjonalnego i odpowiednim reagowaniu.
Model karty wydany wraz z GPT-5 firmy OpenAI pokazuje, że firma opracowuje własne testy porównawcze inteligencji psychologicznej.
„Po zakończeniu szkolenia wytrenowaliśmy modele GPT-5, aby były mniej pochlebcze i aktywnie badamy powiązane obszary budzące obawy, takie jak sytuacje, które mogą wiązać się z uzależnieniem emocjonalnym lub innymi formami stresu psychicznego lub emocjonalnego” – czytamy w dokumencie. „Pracujemy nad udoskonaleniem naszych ewaluacji, aby wyznaczać i udostępniać wiarygodne punkty odniesienia, które z kolei mogą być wykorzystane do zwiększenia bezpieczeństwa naszych modeli w tych obszarach”.
Jednym z powodów, dla których GPT-5 wydaje się tak rozczarowujący, może być po prostu to, że ujawnia on aspekt ludzkiej inteligencji, który pozostaje obcy sztucznej inteligencji: zdolność do utrzymywania zdrowych relacji. Oczywiście ludzie są niesamowicie dobrzy w komunikowaniu się z różnymi osobami – a ChatGPT wciąż musi to zrozumieć.
„Pracujemy nad aktualizacją osobowości GPT-5, która powinna być cieplejsza niż obecna, ale nie tak irytująca (dla większości użytkowników) jak GPT-4o” – napisał Altman wczoraj w innej aktualizacji na X. „Jednakże, z ostatnich kilku dni wyciągnęliśmy wnioski: tak naprawdę potrzebujemy po prostu świata z większą możliwością personalizacji osobowości modelu dla każdego użytkownika”.
wired