Wybierz język

Polish

Down Icon

Wybierz kraj

America

Down Icon

QwenLong-L1 rozwiązuje problem rozumowania w długim kontekście, który stanowi zagadkę dla obecnych LLM

QwenLong-L1 rozwiązuje problem rozumowania w długim kontekście, który stanowi zagadkę dla obecnych LLM

Dołącz do naszych codziennych i cotygodniowych newsletterów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodących w branży relacji z AI. Dowiedz się więcej

Alibaba Group wprowadziła QwenLong-L1 , nowy framework, który umożliwia dużym modelom językowym (LLM) rozumowanie na podstawie ekstremalnie długich danych wejściowych. Rozwój ten może odblokować nową falę aplikacji korporacyjnych, które wymagają modeli do zrozumienia i wyciągania wniosków z obszernych dokumentów, takich jak szczegółowe dokumenty korporacyjne, długie sprawozdania finansowe lub złożone umowy prawne.

Ostatnie postępy w dużych modelach rozumowania (LRM), szczególnie poprzez uczenie się przez wzmacnianie (RL), znacznie poprawiły ich zdolności rozwiązywania problemów. Badania pokazują, że po przeszkoleniu z dostrajaniem RL, LRM nabywają umiejętności podobne do ludzkiego „ powolnego myślenia ”, gdzie rozwijają wyrafinowane strategie radzenia sobie ze złożonymi zadaniami.

Jednakże te ulepszenia są widoczne przede wszystkim, gdy modele pracują z relatywnie krótkimi fragmentami tekstu, zazwyczaj około 4000 tokenów. Zdolność tych modeli do skalowania swojego rozumowania do znacznie dłuższych kontekstów (np. 120 000 tokenów) pozostaje głównym wyzwaniem. Takie długie rozumowanie wymaga solidnego zrozumienia całego kontekstu i umiejętności przeprowadzania analizy wieloetapowej. „To ograniczenie stanowi znaczną barierę dla praktycznych zastosowań wymagających interakcji z wiedzą zewnętrzną, takich jak głębokie badania, w których LRM muszą zbierać i przetwarzać informacje ze środowisk intensywnie wykorzystujących wiedzę” — piszą twórcy QwenLong-L1 w swoim artykule .

Badacze formalizują te wyzwania w koncepcji „rozumowania w długim kontekście RL”. W przeciwieństwie do rozumowania w krótkim kontekście, które często opiera się na wiedzy już zapisanej w modelu, rozumowanie w długim kontekście RL wymaga, aby modele pobierały i uziemiały istotne informacje z długich danych wejściowych dokładnie. Tylko wtedy mogą generować łańcuchy rozumowania w oparciu o te włączone informacje.

Modele szkoleniowe do tego celu za pośrednictwem RL są trudne i często skutkują nieefektywnym uczeniem się i niestabilnymi procesami optymalizacji. Modele mają trudności ze zbieżnością dobrych rozwiązań lub tracą zdolność eksplorowania różnych ścieżek rozumowania.

QwenLong-L1 to struktura uczenia się wzmacniającego zaprojektowana, aby pomóc LRM przejść od biegłości w krótkich tekstach do solidnej generalizacji w długich kontekstach. Struktura wzmacnia istniejące LRM w krótkich kontekstach poprzez starannie ustrukturyzowany, wieloetapowy proces:

Rozgrzewka Supervised Fine-Tuning (SFT): Model przechodzi najpierw fazę SFT, gdzie jest trenowany na przykładach rozumowania w długim kontekście. Ten etap tworzy solidne podstawy, umożliwiając modelowi dokładne uziemianie informacji z długich danych wejściowych. Pomaga rozwijać podstawowe zdolności w zakresie rozumienia kontekstu, generowania logicznych łańcuchów rozumowania i wydobywania odpowiedzi.

Curriculum-Guided Phased RL: Na tym etapie model jest trenowany przez wiele faz, a docelowa długość dokumentów wejściowych stopniowo wzrasta. To systematyczne podejście krok po kroku pomaga modelowi stabilnie dostosowywać strategie rozumowania z krótszych do stopniowo dłuższych kontekstów. Unika niestabilności często widocznej, gdy modele są nagle trenowane na bardzo długich tekstach.

Próbkowanie retrospektywne uwzględniające trudności: Ostatni etap szkolenia obejmuje trudne przykłady z poprzednich faz szkolenia, zapewniając, że model nadal uczy się na najtrudniejszych problemach. To nadaje priorytet trudnym przypadkom i zachęca model do eksplorowania bardziej zróżnicowanych i złożonych ścieżek rozumowania.

Proces QwenLong-L1 (źródło: arXiv)
Proces QwenLong-L1 Źródło: arXiv

Oprócz tego ustrukturyzowanego szkolenia, QwenLong-L1 wykorzystuje również odrębny system nagród. Podczas gdy szkolenie dla zadań rozumowania krótkokontekstowego często opiera się na ścisłych nagrodach opartych na regułach (np. poprawna odpowiedź w zadaniu matematycznym), QwenLong-L1 wykorzystuje hybrydowy mechanizm nagród. Łączy on weryfikację opartą na regułach, która zapewnia precyzję poprzez sprawdzanie ścisłego przestrzegania kryteriów poprawności, z „ LLM-as-a-judge ”. Ten model sędziego porównuje semantykę wygenerowanej odpowiedzi z prawdą podstawową, umożliwiając większą elastyczność i lepsze radzenie sobie z różnymi sposobami wyrażania poprawnych odpowiedzi w przypadku długich, niuansowanych dokumentów.

Zespół Alibaba ocenił QwenLong-L1, używając jako głównego zadania funkcji document question-answering (DocQA). Ten scenariusz jest wysoce istotny dla potrzeb przedsiębiorstwa, gdzie sztuczna inteligencja musi zrozumieć gęste dokumenty, aby odpowiedzieć na złożone pytania.

Wyniki eksperymentów w siedmiu długokontekstowych testach DocQA wykazały możliwości QwenLong-L1. Co godne uwagi, model QWENLONG-L1-32B (oparty na DeepSeek-R1-Distill-Qwen-32B ) osiągnął wydajność porównywalną z Claude-3.7 Sonnet Thinking firmy Anthropic i przewyższył takie modele jak o3-mini i Qwen3-235B-A22B firmy OpenAI. Mniejszy model QWENLONG-L1-14B przewyższył również Gemini 2.0 Flash Thinking firmy Google i Qwen3-32B.

Źródło: arXiv
Źródło: arXiv

Ważnym odkryciem odnoszącym się do zastosowań w świecie rzeczywistym jest to, w jaki sposób trening RL skutkuje rozwojem przez model wyspecjalizowanych zachowań rozumowania w długim kontekście. W artykule zauważono, że modele trenowane za pomocą QwenLong-L1 stają się lepsze w „uziemianiu” (łączeniu odpowiedzi z konkretnymi częściami dokumentu), „ustalaniu podcelów” (rozbijaniu złożonych pytań), „cofaniu się” (rozpoznawaniu i korygowaniu własnych błędów w trakcie rozumowania) i „weryfikacji” (podwójnym sprawdzaniu odpowiedzi).

Na przykład, podczas gdy model bazowy może zostać zepchnięty na boczny tor przez nieistotne szczegóły w dokumencie finansowym lub utknąć w pętli nadmiernej analizy niezwiązanych informacji, model wyszkolony w QwenLong-L1 wykazał zdolność do skutecznej autorefleksji. Mógł on skutecznie odfiltrować te rozpraszające szczegóły, wycofać się z nieprawidłowych ścieżek i dojść do prawidłowej odpowiedzi.

Techniki takie jak QwenLong-L1 mogą znacznie zwiększyć użyteczność AI w przedsiębiorstwie. Potencjalne zastosowania obejmują technologię prawną (analizowanie tysięcy stron dokumentów prawnych), finanse (głębokie badania sprawozdań rocznych i dokumentów finansowych w celu oceny ryzyka lub możliwości inwestycyjnych) i obsługę klienta (analizowanie długich historii interakcji z klientami w celu zapewnienia bardziej świadomego wsparcia). Naukowcy opublikowali kod dla receptury QwenLong-L1 i wagi dla wytrenowanych modeli .

Codzienne spostrzeżenia na temat przypadków użycia biznesowego z VB Daily

Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Dajemy Ci wewnętrzny wgląd w to, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz dzielić się spostrzeżeniami, aby uzyskać maksymalny zwrot z inwestycji.

Przeczytaj naszą Politykę prywatności

Dziękujemy za subskrypcję. Sprawdź więcej newsletterów VB tutaj .

Wystąpił błąd.

venturebeat

venturebeat

Podobne wiadomości

Wszystkie wiadomości
Animated ArrowAnimated ArrowAnimated Arrow