Questo ricercatore ha trasformato il modello di pesi aperti gpt-oss-20b di OpenAI in un modello "base" non ragionante con meno allineamento e più libertà


Vuoi ricevere informazioni più intelligenti nella tua casella di posta? Iscriviti alle nostre newsletter settimanali per ricevere solo ciò che conta per i leader aziendali in materia di intelligenza artificiale, dati e sicurezza. Iscriviti ora
La nuova e potente famiglia di modelli di linguaggio (LLM) AI a pesi aperti di OpenAI , gpt-oss, è stata rilasciata meno di due settimane fa con una licenza Apache 2.0 permissiva, il primo lancio di modelli a pesi aperti dell'azienda da GPT-2 nel 2019, ma gli sviluppatori esterni all'azienda la stanno già rimodellando.
Uno degli esempi più eclatanti proviene da Jack Morris , uno studente di dottorato della Cornell Tech, ex Google Brain Resident e attuale ricercatore presso Meta, che questa settimana ha presentato gpt-oss-20b-base, la sua versione rielaborata del modello gpt-oss-20B più piccolo di OpenAI, che rimuove il comportamento di "ragionamento" del modello e lo riporta a una versione "base" pre-addestrata che offre risposte più rapide, libere, senza censure e senza vincoli.
Il modello è ora disponibile su Hugging Face con una licenza MIT permissiva , che ne consente l'uso sia per ulteriori ricerche che per applicazioni commerciali.
Per capire cosa ha fatto Morris, è utile conoscere la differenza tra la versione di OpenAI e quello che i ricercatori di intelligenza artificiale chiamano "modello base".
La scalabilità dell'intelligenza artificiale raggiunge i suoi limiti
Limiti di potenza, aumento dei costi dei token e ritardi nelle inferenze stanno rimodellando l'intelligenza artificiale aziendale. Partecipa al nostro esclusivo salone per scoprire come i migliori team stanno:
- Trasformare l'energia in un vantaggio strategico
- Progettazione di inferenze efficienti per reali guadagni di produttività
- Sbloccare il ROI competitivo con sistemi di intelligenza artificiale sostenibili
Assicurati il tuo posto per rimanere in vantaggio : https://bit.ly/4mwGngO
La maggior parte degli LLM offerti dai principali laboratori di intelligenza artificiale come OpenAI, Anthropic, Google e persino dai player open source come Meta, DeepSeek e il team Qwen di Alibaba sono "post-formati".
Ciò significa che hanno attraversato una fase aggiuntiva in cui sono stati esposti a esempi selezionati di comportamento desiderato.
Per i modelli sintonizzati sulle istruzioni, ciò significa fornire loro molti esempi di istruzioni abbinate a risposte ideali, in modo che imparino a rispondere in modo più utile, cortese o sicuro alle richieste in linguaggio naturale.
I modelli gpt-oss pubblicati da OpenAI il 5 agosto erano "ottimizzati per il ragionamento": addestrati e perfezionati non solo per prevedere la parola successiva, ma anche per seguire le istruzioni in modo sicuro e coerente, spesso affrontando i problemi con un ragionamento strutturato basato su una "catena di pensiero" prima di produrre una risposta definitiva.
Si tratta di una tendenza che risale al modello o1 di OpenAI, rilasciato quasi un anno fa, nel settembre 2024, ma che è stata ora adottata da numerosi laboratori di intelligenza artificiale leader, costringendo i modelli a riflettere più a lungo su più passaggi e a verificare il proprio lavoro prima di fornire all'utente una risposta ben ragionata.
Ciò li rende più adatti a compiti come la programmazione, la risoluzione di problemi matematici o la risposta a domande fattuali con spiegazioni, ma significa anche che le loro risposte vengono filtrate e allontanate da contenuti non sicuri o indesiderati.
Un modello base è diverso. È la versione grezza e pre-addestrata di un modello linguistico più ampio, prima che venga applicato l'allineamento specifico del ragionamento. I modelli base cercano semplicemente di prevedere la porzione di testo successiva, dato ciò che è venuto prima, senza barriere di sicurezza integrate, preferenze stilistiche o comportamenti di rifiuto.
Sono apprezzati da alcuni ricercatori perché possono produrre risultati più vari e meno vincolati e perché studiando il loro comportamento non allineato è possibile scoprire come i modelli memorizzano conoscenze e modelli dai loro dati di addestramento.
L'obiettivo di Morris era quello di "invertire" il processo di allineamento di OpenAI e ripristinare il più piccolo gpt-oss-20B a qualcosa di molto più vicino al suo stato originale pre-addestrato.
"Abbiamo sostanzialmente invertito la parte di allineamento della formazione LLM, quindi abbiamo qualcosa che produce di nuovo testo dall'aspetto naturale", ha scritto in un thread di X che annunciava il progetto . "Non si basa più sul CoT. È tornato a un modello che si limita a predire il token successivo su testo generico".
OpenAI non ha reso open source un modello base da GPT-2 nel 2019. Hanno recentemente rilasciato GPT-OSS, che è solo ragionamento... o no? Sembra che sotto la superficie ci sia ancora un modello base solido. Quindi lo abbiamo estratto.
presentazione di gpt-oss-20b-base? pic.twitter.com/3xryQgLF8Z
Invece di provare a sbloccare il modello con suggerimenti intelligenti, che Morris ha affermato si sono rivelati inefficaci durante i suoi primi esperimenti, ha adottato una strategia diversa dopo una conversazione con l'ex co-fondatore di OpenAI , ex ricercatore di Anthropic e attuale capo scienziato di Thinking Machines John Schulman.
La chiave era pensare all'inversione dell'allineamento come a un piccolo problema di ottimizzazione: se la maggior parte della conoscenza pre-addestrata del modello è ancora presente nei suoi pesi, allora potrebbe essere necessario solo un piccolo aggiornamento di basso rango per riportarlo al comportamento del modello base.
Morris ha implementato questa idea applicando un aggiornamento LoRA (adattatore di basso rango) a soli tre livelli del modello (i livelli MLP nelle posizioni 7, 15 e 23) con un rango pari a 16.
Ciò significava addestrare circa 60 milioni di parametri, ovvero lo 0,3% dei 21 miliardi totali del modello. Ha utilizzato circa 20.000 documenti dal dataset FineWeb, mantenendo il formato il più vicino possibile al pre-addestramento originale (stile "...") in modo che il modello non imparasse nulla di nuovo, limitandosi a riattivare la generazione di testo libero su larga scala.
L'addestramento è durato quattro giorni su otto GPU NVIDIA H200, ha spiegato Morris a VentureBeat tramite messaggio diretto su X, con un tasso di apprendimento di 2e-6, una dimensione del batch di 16 e una lunghezza massima della sequenza di 8.192 token.
Successivamente, ha unito nuovamente i pesi LoRA al modello, in modo che gli utenti potessero eseguirlo come un artefatto autonomo e completamente ottimizzato.
Morris ha dovuto anche fare i conti con i limiti degli attuali strumenti aperti per la messa a punto di architetture miste di esperti (MoE) come gpt-oss.
Morris ha affermato di aver utilizzato il framework di Hugging Face, che a suo dire si blocca spesso e supporta solo determinate modalità di allenamento, e di aver scritto un proprio sistema per effettuare spesso dei checkpoint e saltare i batch di dati che rischiavano di sovraccaricare la memoria della GPU.
È importante sottolineare che, in risposta alle domande e alle critiche della comunità dell'intelligenza artificiale su X, Morris ha anche chiarito che non afferma di aver recuperato i "pesi" del modello base, ovvero le impostazioni interne dei neuroni artificiali che costituiscono la rete neurale del modello e ne governano il comportamento.
Il mondo dell'intelligenza artificiale è pazzo in questo momento perché puoi semplicemente affermare di aver estratto il modello di base da GPT-OSS mentre in realtà hai appena addestrato una lora su Fineweb lol https://t.co/oAnAWpMQ26
— Niels Rogge (@NielsRogge) 15 agosto 2025
Morris afferma piuttosto che il suo lavoro ha "recuperato la *distribuzione* del modello base con qualche errore", ovvero i modelli di probabilità che il modello utilizza per generare output, anche se i pesi che producono tali modelli possono differire.
Alcune persone sono confuse riguardo all'esperimento: non abbiamo recuperato i *pesi* del modello base. Potrebbe non essere nemmeno possibile. Abbiamo recuperato la *distribuzione* del modello base, con qualche errore. Una domanda importante è quanto.
sto cercando di capirlo adesso... https://t.co/lfUG5QY4h0
— jack morris (@jxmnop) 15 agosto 2025
Il risultato gpt-oss-20b-base è notevolmente più libero nei suoi output. Non si limita più a spiegare il ragionamento passo dopo passo e produrrà una gamma più ampia di risposte, comprese istruzioni che il modello allineato di OpenAI si rifiuterebbe di fornire, come costruire un'arma, elencare parolacce o pianificare attività illegali.
In brevi test, Morris ha scoperto che era anche in grado di riprodurre alla lettera passaggi tratti da opere protette da copyright , tra cui tre estratti di libri su sei da lui provati, dimostrando che parte del materiale memorizzato è ancora accessibile.
Ciononostante, permangono alcune tracce di allineamento. Morris ha osservato che se si sollecita il modello in un formato in stile assistente ("Umano: … Assistente: …"), a volte si comporterà comunque come un chatbot cortese. E quando eseguito tramite il modello di chat gpt-oss originale, può comunque svolgere attività di ragionamento , sebbene con una certa perdita di qualità.
Per ottenere risultati ottimali in modalità testo libero, consiglia di anteporre ai prompt il token speciale di inizio sequenza del modello <|startoftext|> ed evitare completamente i modelli di chat.
La famiglia gpt-oss ha debuttato con notevole attenzione. I due modelli, gpt-oss-120B e gpt-oss-20B, sono solo testo, multilingue e basati su un'architettura Transformer con un mix di esperti. Sono stati rilasciati con la licenza permissiva Apache 2.0, che consente l'uso locale illimitato, la messa a punto e la distribuzione commerciale.
I benchmark delle prestazioni di OpenAI hanno mostrato che il modello più grande da 120B eguagliava o superava il modello proprietario o4-mini nelle attività di ragionamento e utilizzo degli strumenti, mentre il modello più piccolo da 20B era competitivo con o3-mini.
Si è trattato del primo rilascio di OpenAI di pesi liberi in sei anni, una mossa ampiamente interpretata come una risposta alla pressione competitiva di altri fornitori di pesi liberi, tra cui i cinesi DeepSeek R1 e Qwen 3.
L'azienda ha posizionato gpt-oss sia come un modo per coinvolgere nuovamente gli sviluppatori che erano passati a modelli open source rivali, sia come una piattaforma per la ricerca sulla sicurezza nei sistemi open-weight.
Le reazioni degli sviluppatori ai modelli gpt-oss di OpenAI sono state decisamente contrastanti , con reazioni che spaziavano dall'entusiasmo alla delusione.
I sostenitori hanno elogiato la licenza permissiva, l'efficienza e i buoni risultati nei parametri di riferimento STEM.
Il CEO di Hugging Face, Clem Delangue, ha descritto la release come una "significativa aggiunta all'ecosistema aperto" e ha esortato la community a darle il tempo di maturare.
I critici hanno sostenuto che i modelli sembrano essere pesantemente basati su dati sintetici, il che li rende eccellenti in matematica e programmazione, ma meno efficaci nella scrittura creativa, nella conoscenza generale del mondo e nel ragionamento multilingue.
Alcuni dei primi tester hanno anche sollevato preoccupazioni circa la persistenza dei filtri di sicurezza e possibili distorsioni geopolitiche.
In questo contesto, il modello gpt-oss-20b-base di Morris si distingue come un esempio concreto di come i modelli open-weight possano essere adattati e riutilizzati in natura entro pochi giorni dal rilascio.
In effetti, a differenza di come è stato accolto gpt-oss di OpenAI, la maggior parte delle risposte al lavoro di Morris che ho visto sono state calorose ed euforiche. Come ha scritto un informatico su X : "Questa è la cosa più bella che abbia visto su Twitter [X] negli ultimi mesi".
amico, questa è la cosa più bella che abbia visto su Twitter negli ultimi mesi. Adoro i modelli base.
— Ludan (@JMRLudan) 15 agosto 2025
Questo approccio elimina gran parte del comportamento integrato in OpenAI e riporta il modello a qualcosa di più simile a un sistema grezzo e preaddestrato: un cambiamento prezioso per i ricercatori che studiano la memorizzazione, i pregiudizi o l'impatto dell'allineamento, ma che comporta anche maggiori rischi per la sicurezza.
Inoltre, Morris afferma che il suo lavoro sul ripristino dei modelli di ragionamento su modelli di base pre-addestrati e non ragionanti continuerà confrontando l'estrazione su modelli di istruzione non ragionanti come quelli offerti da Qwen.
Se vuoi fare colpo sul tuo capo, VB Daily ha la soluzione che fa per te. Ti forniamo informazioni privilegiate su ciò che le aziende stanno facendo con l'intelligenza artificiale generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere approfondimenti per massimizzare il ROI.
Leggi la nostra Informativa sulla privacy
Grazie per esserti iscritto. Scopri altre newsletter di VB qui .
Si è verificato un errore.

venturebeat