Podręcznik Interpretable AI: Co badania Anthropic oznaczają dla strategii LLM Twojego przedsiębiorstwa

Dołącz do wydarzenia, któremu liderzy przedsiębiorstw ufają od prawie dwóch dekad. VB Transform łączy ludzi budujących prawdziwą strategię AI przedsiębiorstwa. Dowiedz się więcej
Dyrektor naczelny Anthropic, Dario Amodei, w kwietniu podjął pilną decyzję o zrozumieniu sposobu myślenia modeli sztucznej inteligencji.
Dzieje się to w kluczowym momencie. Ponieważ Anthropic walczy w światowych rankingach AI, ważne jest, aby zauważyć, co odróżnia go od innych czołowych laboratoriów AI. Od momentu założenia w 2021 r., kiedy siedmiu pracowników OpenAI odeszło z powodu obaw o bezpieczeństwo AI, Anthropic zbudowało modele AI, które są zgodne z zestawem wartości ludzkich, systemem, który nazywają Constitutional AI . Zasady te zapewniają, że modele są „ pomocne, uczciwe i nieszkodliwe ” i ogólnie działają w najlepszym interesie społeczeństwa. Jednocześnie dział badawczy Anthropic nurkuje głęboko, aby zrozumieć, jak jego modele myślą o świecie i dlaczego generują pomocne (a czasami szkodliwe) odpowiedzi.
Flagowy model Anthropic, Claude 3.7 Sonnet, zdominował testy porównawcze kodowania, gdy został wydany w lutym, udowadniając, że modele AI mogą wyróżniać się zarówno pod względem wydajności, jak i bezpieczeństwa. A niedawna premiera Claude 4.0 Opus i Sonnet ponownie stawia Claude na szczycie testów porównawczych kodowania . Jednak na dzisiejszym szybkim i hiperkonkurencyjnym rynku AI rywale Anthropic, tacy jak Gemini 2.5 Pro firmy Google i o3 firmy Open AI, mają własne imponujące pokazy umiejętności kodowania, podczas gdy już dominują nad Claude w matematyce, pisaniu kreatywnym i ogólnym rozumowaniu w wielu językach.
Jeśli myśli Amodei są jakimkolwiek wskaźnikiem, Anthropic planuje przyszłość AI i jej implikacje w krytycznych dziedzinach, takich jak medycyna, psychologia i prawo, gdzie bezpieczeństwo modeli i wartości ludzkie są konieczne. I to widać: Anthropic jest wiodącym laboratorium AI, które koncentruje się ściśle na rozwijaniu „interpretowalnej” AI, czyli modeli, które pozwalają nam zrozumieć, do pewnego stopnia pewności, co model myśli i jak dochodzi do określonego wniosku.
Amazon i Google zainwestowały już miliardy dolarów w Anthropic, nawet gdy budują własne modele AI, więc być może przewaga konkurencyjna Anthropic wciąż się rozwija. Modele interpretowalne, jak sugeruje Anthropic, mogłyby znacznie zmniejszyć długoterminowe koszty operacyjne związane z debugowaniem, audytem i łagodzeniem ryzyka w złożonych wdrożeniach AI.
Sayash Kapoor , badacz bezpieczeństwa AI, sugeruje, że chociaż interpretowalność jest cenna, jest to tylko jedno z wielu narzędzi do zarządzania ryzykiem AI. Jego zdaniem „interpretowalność nie jest ani konieczna, ani wystarczająca”, aby zapewnić bezpieczne zachowanie modeli — ma największe znaczenie w połączeniu z filtrami, weryfikatorami i projektowaniem zorientowanym na człowieka. Ten szerszy pogląd postrzega interpretowalność jako część większego ekosystemu strategii kontroli, szczególnie w rzeczywistych wdrożeniach AI, w których modele są składnikami szerszych systemów podejmowania decyzji.
Do niedawna wielu uważało, że AI jest jeszcze o lata od takich postępów, jakie obecnie pomagają Claude, Gemini i ChatGPT pochwalić się wyjątkową adopcją rynkową. Podczas gdy te modele już przesuwają granice ludzkiej wiedzy , ich powszechne zastosowanie wynika z tego, jak dobrze radzą sobie z rozwiązywaniem szerokiego zakresu praktycznych problemów, które wymagają kreatywnego rozwiązywania problemów lub szczegółowej analizy. Ponieważ modele są poddawane zadaniom w przypadku coraz bardziej krytycznych problemów, ważne jest, aby dawały dokładne odpowiedzi.
Amodei obawia się, że gdy AI odpowiada na monit, „nie mamy pojęcia… dlaczego wybiera pewne słowa zamiast innych lub dlaczego czasami popełnia błąd, mimo że zwykle jest dokładny”. Takie błędy — halucynacje niedokładnych informacji lub odpowiedzi niezgodne z ludzkimi wartościami — powstrzymają modele AI przed osiągnięciem pełnego potencjału. Rzeczywiście, widzieliśmy wiele przykładów AI nadal zmagających się z halucynacjami i nieetycznymi zachowaniami .
Według Amodeia najlepszym sposobem rozwiązania tych problemów jest zrozumienie, w jaki sposób myśli sztuczna inteligencja: „Nasza niezdolność do zrozumienia wewnętrznych mechanizmów modeli oznacza, że nie możemy w sposób sensowny przewidzieć takich [szkodliwych] zachowań, a zatem mamy trudności z ich wykluczeniem… Gdyby zamiast tego było możliwe zajrzenie do wnętrza modeli, moglibyśmy systematycznie blokować wszystkie jailbreaki, a także scharakteryzować, jaką niebezpieczną wiedzę posiadają modele”.
Amodei uważa również, że nieprzejrzystość obecnych modeli stanowi barierę dla wdrażania modeli AI w „wysokich stawkach finansowych lub krytycznych dla bezpieczeństwa środowiskach, ponieważ nie możemy w pełni ustalić granic ich zachowań, a niewielka liczba błędów może być bardzo szkodliwa”. W podejmowaniu decyzji, które bezpośrednio dotyczą ludzi, takich jak diagnoza medyczna lub ocena kredytu hipotecznego, przepisy prawne wymagają, aby AI wyjaśniała swoje decyzje.
Wyobraź sobie instytucję finansową wykorzystującą model dużego języka (LLM) do wykrywania oszustw — interpretowalność może oznaczać wyjaśnienie klientowi odrzuconego wniosku o pożyczkę zgodnie z wymogami prawa. Albo firmę produkcyjną optymalizującą łańcuchy dostaw — zrozumienie, dlaczego sztuczna inteligencja sugeruje, że konkretny dostawca może odblokować wydajność i zapobiec nieprzewidzianym wąskim gardłom.
Z tego powodu, jak wyjaśnia Amodei, „Anthropic podwaja wysiłki na rzecz interpretowalności, a naszym celem jest osiągnięcie do 2027 r. poziomu, na którym interpretowalność będzie w stanie niezawodnie wykrywać większość problemów z modelami”.
W tym celu Anthropic niedawno uczestniczył w inwestycji o wartości 50 milionów dolarów w Goodfire , laboratorium badawcze AI, które dokonuje przełomowych postępów w zakresie „skanowania mózgu” AI. Ich platforma inspekcji modeli, Ember, jest narzędziem agnostycznym, które identyfikuje poznane koncepcje w modelach i pozwala użytkownikom nimi manipulować. W niedawnej demonstracji firma pokazała, jak Ember może rozpoznawać poszczególne koncepcje wizualne w ramach AI generującej obrazy, a następnie pozwala użytkownikom malować te koncepcje na płótnie, aby generować nowe obrazy, które są zgodne z projektem użytkownika.
Inwestycja Anthropic w Ember wskazuje na fakt, że tworzenie modeli interpretowalnych jest wystarczająco trudne, a Anthropic nie ma siły roboczej, aby osiągnąć interpretowalność samodzielnie. Kreatywne modele interpretowalne wymagają nowych łańcuchów narzędzi i wykwalifikowanych programistów, aby je zbudować
Szerszy kontekst: perspektywa badacza AIAby rozbić perspektywę Amodeia i dodać bardzo potrzebny kontekst, VentureBeat przeprowadził wywiad z Kapoorem, badaczem bezpieczeństwa AI w Princeton. Kapoor jest współautorem książki AI Snake Oil , krytycznej analizy przesadnych twierdzeń dotyczących możliwości wiodących modeli AI. Jest również współautorem „AI as Normal Technology ”, w której opowiada się za traktowaniem AI jako standardowego, transformacyjnego narzędzia, takiego jak internet czy elektryczność, i promuje realistyczną perspektywę jego integracji z codziennymi systemami.
Kapoor nie kwestionuje, że interpretowalność jest cenna. Jest jednak sceptyczny co do traktowania jej jako centralnego filaru dopasowania AI. „To nie jest magiczna kula” – powiedział Kapoor VentureBeat. Wiele z najskuteczniejszych technik bezpieczeństwa, takich jak filtrowanie po odpowiedzi, wcale nie wymaga otwierania modelu – powiedział.
Ostrzega również przed tym, co badacze nazywają „błędem niezgłębionej przenikliwości” — ideą, że jeśli nie rozumiemy w pełni wnętrza systemu, nie możemy go używać ani regulować w sposób odpowiedzialny. W praktyce pełna przejrzystość nie jest sposobem oceny większości technologii. Ważne jest, czy system działa niezawodnie w rzeczywistych warunkach.
To nie pierwszy raz, kiedy Amodei ostrzega przed ryzykiem, że AI wyprzedzi nasze zrozumienie. W swoimpoście z października 2024 r. „Machines of Loving Grace” naszkicował wizję coraz bardziej wydajnych modeli, które mogłyby podejmować znaczące działania w świecie rzeczywistym (i być może podwoić naszą długość życia).
Według Kapoora, należy dokonać ważnego rozróżnienia między możliwościami modelu a jego mocą . Możliwości modeli niewątpliwie szybko rosną i wkrótce mogą rozwinąć wystarczającą inteligencję, aby znaleźć rozwiązania wielu złożonych problemów, z którymi mierzy się ludzkość. Jednak model jest tak potężny, jak interfejsy, które mu zapewniamy, aby mógł wchodzić w interakcje ze światem rzeczywistym, w tym gdzie i jak modele są wdrażane.
Amodei osobno argumentował, że USA powinny utrzymać przewagę w rozwoju AI, częściowo poprzez kontrolę eksportu , która ogranicza dostęp do potężnych modeli. Pomysł polega na tym, że autorytarne rządy mogą nieodpowiedzialnie wykorzystywać systemy AI wschodzących — lub przejąć przewagę geopolityczną i ekonomiczną, która wiąże się z ich pierwszym wdrożeniem.
Dla Kapoora „Nawet najwięksi zwolennicy kontroli eksportu zgadzają się, że da nam to co najwyżej rok lub dwa”. Uważa, że powinniśmy traktować AI jako „normalną technologię ”, taką jak elektryczność czy internet. Choć rewolucyjne, minęły dekady, zanim obie technologie zostały w pełni zrealizowane w społeczeństwie. Kapoor uważa, że tak samo jest w przypadku AI: najlepszym sposobem na utrzymanie przewagi geopolitycznej jest skupienie się na „długiej grze” polegającej na przekształcaniu branż, aby skutecznie wykorzystywały AI.
Kapoor nie jest jedynym krytykującym stanowisko Amodei. W zeszłym tygodniu na VivaTech w Paryżu, Jansen Huang, CEO Nvidii, oświadczył, że nie zgadza się z poglądami Amodei. Huang zakwestionował, czy uprawnienia do rozwijania AI powinny być ograniczone do kilku potężnych podmiotów, takich jak Anthropic. Powiedział: „Jeśli chcesz, aby rzeczy były wykonywane bezpiecznie i odpowiedzialnie, rób to otwarcie… Nie rób tego w ciemnym pokoju i mów mi, że jest to bezpieczne”.
W odpowiedzi Anthropic oświadczył : „Dario nigdy nie twierdził, że „tylko Anthropic” może tworzyć bezpieczną i wydajną sztuczną inteligencję. Jak pokazują zapisy publiczne, Dario opowiadał się za krajowym standardem przejrzystości dla programistów sztucznej inteligencji (w tym Anthropic), aby społeczeństwo i decydenci byli świadomi możliwości i ryzyka modeli i mogli się odpowiednio przygotować”.
Warto zauważyć, że Anthropic nie jest jedyną firmą zajmującą się badaniem interpretowalności: zespół badawczy DeepMind firmy Google, kierowany przez Neela Nandę, również wniósł znaczący wkład w badania nad interpretowalnością.
Ostatecznie czołowe laboratoria i badacze AI dostarczają mocnych dowodów na to, że interpretowalność może być kluczowym czynnikiem różnicującym na konkurencyjnym rynku AI. Przedsiębiorstwa, które wcześnie stawiają interpretowalność na pierwszym miejscu, mogą uzyskać znaczną przewagę konkurencyjną, budując bardziej zaufane, zgodne i adaptowalne systemy AI.
Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Dajemy Ci wewnętrzny wgląd w to, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz dzielić się spostrzeżeniami, aby uzyskać maksymalny zwrot z inwestycji.
Przeczytaj naszą Politykę prywatności
Dziękujemy za subskrypcję. Sprawdź więcej newsletterów VB tutaj .
Wystąpił błąd.

venturebeat