È l'estate di Qwen: il nuovo Qwen3-235B-A22B-Thinking-2507 open source supera i modelli di ragionamento OpenAI e Gemini nei benchmark chiave

Desideri ricevere informazioni più intelligenti nella tua casella di posta? Iscriviti alle nostre newsletter settimanali per ricevere solo ciò che conta per i leader aziendali di intelligenza artificiale, dati e sicurezza. Iscriviti ora
Se l'industria dell'intelligenza artificiale avesse un equivalente della "canzone dell'estate" dell'industria discografica, ovvero una hit che spopola nei mesi più caldi qui nell'emisfero settentrionale e viene ascoltata ovunque, il vero vincitore di quel titolo andrebbe al Qwen Team di Alibaba.
Solo nell'ultima settimana, la divisione di ricerca sui modelli di intelligenza artificiale di frontiera del colosso cinese dell'e-commerce ha rilasciato non uno , non due , non tre , ma ben quattro (!!) nuovi modelli di intelligenza artificiale generativa open source che offrono parametri di riferimento da record, superando persino alcune delle principali opzioni proprietarie.
Ieri sera, il team Qwen ha concluso il tutto con il rilascio di Qwen3-235B-A22B-Thinking-2507 , il suo modello linguistico di ragionamento (LLM) aggiornato, che impiega più tempo per rispondere rispetto a un LLM non di ragionamento o "istruttivo", impegnandosi in "catene di pensiero" o auto-riflessione e auto-controllo che si spera diano luogo a risposte più corrette e complete nei compiti più difficili.
In effetti, il nuovo Qwen3-Thinking-2507, come lo chiameremo in breve, ora supera o segue da vicino i modelli più performanti in diversi benchmark importanti.
La serie AI Impact torna a San Francisco - 5 agosto
La prossima fase dell'IA è arrivata: sei pronto? Unisciti ai leader di Block, GSK e SAP per uno sguardo esclusivo a come gli agenti autonomi stanno rimodellando i flussi di lavoro aziendali, dal processo decisionale in tempo reale all'automazione end-to-end.
Prenota subito il tuo posto: i posti sono limitati: https://bit.ly/3GuuPLF
Come ha scritto Andrew Curran, influencer e aggregatore di notizie nel campo dell'intelligenza artificiale su X: "Il modello di ragionamento più forte di Qwen è arrivato, ed è all'avanguardia".

Nel benchmark AIME25 , progettato per valutare la capacità di risoluzione dei problemi in contesti matematici e logici, Qwen3-Thinking-2507 è in testa a tutti i modelli segnalati con un punteggio di 92,3 , superando di poco sia o4-mini ( 92,7 ) di OpenAI che Gemini-2.5 Pro ( 88,0 ).
Il modello mostra anche prestazioni eccellenti su LiveCodeBench v6 , ottenendo un punteggio di 74,1, superiore a Google Gemini-2.5 Pro (72,5), OpenAI o4-mini (71,8) e superando significativamente la sua versione precedente, che aveva ottenuto un punteggio di 55,7 .
Nel GPQA , un punto di riferimento per le domande a risposta multipla a livello di laurea, il modello raggiunge 81,1 , quasi eguagliando Deepseek-R1-0528 ( 81,0 ) e seguendo il punteggio massimo di Gemini-2.5 Pro di 86,4 .
In Arena-Hard v2 , che valuta l'allineamento e la preferenza soggettiva attraverso le percentuali di vittoria, Qwen3-Thinking-2507 ottiene un punteggio di 79,7 , posizionandosi davanti a tutti i concorrenti.
I risultati dimostrano che questo modello non solo supera il suo predecessore in ogni categoria principale, ma stabilisce anche un nuovo standard per ciò che i modelli open source incentrati sul ragionamento possono realizzare.
Il rilascio di Qwen3-Thinking-2507 riflette un più ampio cambiamento strategico da parte del team Qwen di Alibaba: l'abbandono dei modelli di ragionamento ibridi che richiedevano agli utenti di alternare manualmente tra la modalità "pensiero" e quella "non pensiero".
Il team sta ora addestrando modelli separati per le attività di ragionamento e istruzione. Questa separazione consente di ottimizzare ciascun modello per lo scopo previsto, con conseguente miglioramento della coerenza, della chiarezza e delle prestazioni di benchmark. Il nuovo modello Qwen3-Thinking incarna pienamente questa filosofia di progettazione.
Parallelamente, Qwen ha lanciato Qwen3-Coder-480B-A35B-Instruct , un modello a 480B parametri progettato per flussi di lavoro di codifica complessi. Supporta 1 milione di finestre di contesto token e supera GPT-4.1 e Gemini 2.5 Pro su SWE-bench Verified.
È stato annunciato anche Qwen3-MT , un modello di traduzione multilingue addestrato su migliaia di miliardi di token in oltre 92 lingue. Supporta l'adattamento del dominio, il controllo della terminologia e l'inferenza a partire da soli 0,50 dollari per milione di token.
All'inizio della settimana, il team ha rilasciato Qwen3-235B-A22B-Instruct-2507 , un modello non ragionante che ha superato Claude Opus 4 in diversi benchmark e ha introdotto una variante FP8 leggera per un'inferenza più efficiente su hardware limitato.
Tutti i modelli sono concessi in licenza Apache 2.0 e sono disponibili tramite Hugging Face, ModelScope e Qwen API.
Qwen3-235B-A22B-Thinking-2507 è rilasciato con licenza Apache 2.0 , una licenza altamente permissiva e commercialmente favorevole che consente alle aziende di scaricare, modificare, auto-ospitare, ottimizzare e integrare il modello in sistemi proprietari senza restrizioni.
Questo è in netto contrasto con i modelli proprietari o le release aperte solo per la ricerca, che spesso richiedono l'accesso alle API, impongono limiti di utilizzo o impediscono l'implementazione commerciale. Per le organizzazioni e i team attenti alla conformità che desiderano controllare costi, latenza e privacy dei dati, il sistema di licenze Apache 2.0 offre piena flessibilità e proprietà.
Qwen3-235B-A22B-Thinking-2507 è ora disponibile per il download gratuito su Hugging Face e ModelScope .
Per le aziende che non vogliono o non hanno le risorse e la capacità di ospitare l'inferenza del modello sul proprio hardware o cloud privato virtuale tramite API, vLLM e SGLang di Alibaba Cloud.
- Prezzo di input: $ 0,70 per milione di token
- Prezzo di output: 8,40 $ per milione di token
- Livello gratuito: 1 milione di token, validi per 180 giorni
Il modello è compatibile con framework agentici tramite Qwen-Agent e supporta la distribuzione avanzata tramite API compatibili con OpenAI.
Può anche essere eseguito localmente utilizzando framework di trasformazione o integrato in stack di sviluppo tramite Node.js, strumenti CLI o interfacce di richiesta strutturate.
Le impostazioni di campionamento per prestazioni ottimali includono temperatura=0,6 , top_p=0,95 e lunghezza massima di output di 81.920 token per attività complesse.
Grazie alle sue elevate prestazioni di riferimento, alla capacità di contestualizzare a lungo termine e alle licenze permissive, Qwen3-Thinking-2507 è particolarmente adatto all'uso nei sistemi di intelligenza artificiale aziendali che coinvolgono ragionamento, pianificazione e supporto alle decisioni.
L'ecosistema più ampio di Qwen3, che comprende modelli di codifica, istruzione e traduzione, ne aumenta ulteriormente l'attrattiva per i team tecnici e le unità aziendali che desiderano integrare l'intelligenza artificiale in settori verticali quali ingegneria, localizzazione, assistenza clienti e ricerca.
La decisione del team Qwen di rilasciare modelli specializzati per casi d'uso distinti, supportati dalla trasparenza tecnica e dal supporto della community, segnala un passaggio deliberato verso la creazione di un'infrastruttura di intelligenza artificiale aperta, performante e pronta per la produzione .
Poiché sempre più aziende cercano alternative ai modelli black-box basati su API, la serie Qwen di Alibaba si posiziona sempre più come una valida base open source per sistemi intelligenti, offrendo sia controllo che capacità su larga scala.
Se vuoi fare colpo sul tuo capo, VB Daily è la soluzione che fa per te. Ti offriamo informazioni privilegiate su ciò che le aziende stanno facendo con l'IA generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere spunti per massimizzare il ROI.
Leggi la nostra Informativa sulla privacy
Grazie per l'iscrizione. Scopri altre newsletter VB qui .
Si è verificato un errore.

venturebeat