Ce chercheur a transformé le modèle de pondération ouvert gpt-oss-20b d'OpenAI en un modèle de « base » non raisonné avec moins d'alignement et plus de liberté


Envie d'informations plus pertinentes dans votre boîte mail ? Inscrivez-vous à nos newsletters hebdomadaires pour recevoir uniquement les informations essentielles pour les leaders de l'IA, des données et de la sécurité en entreprise. Abonnez-vous maintenant.
La nouvelle et puissante famille de modèles de langage large (LLM) d'IA à pondération ouverte d'OpenAI , gpt-oss, a été publiée il y a moins de deux semaines sous une licence Apache 2.0 permissive — le premier lancement de modèle de pondération ouverte de la société depuis GPT-2 en 2019 — mais les développeurs extérieurs à l'entreprise sont déjà en train de le remodeler.
L'un des exemples les plus frappants vient de Jack Morris , un étudiant en doctorat de Cornell Tech, ancien résident de Google Brain et chercheur actuel chez Meta, qui a dévoilé cette semaine gpt-oss-20b-base, sa propre version retravaillée du modèle gpt-oss-20B plus petit d'OpenAI, qui supprime le comportement de « raisonnement » du modèle et le renvoie à une version « de base » pré-entraînée qui offre des réponses plus rapides, plus libres, moins censurées et sans contraintes.
Le modèle est désormais disponible sur Hugging Face sous une licence MIT permissive , lui permettant d'être utilisé à la fois pour des recherches supplémentaires et des applications commerciales.
Pour comprendre ce que Morris a fait, il est utile de connaître la différence entre la version d’OpenAI et ce que les chercheurs en IA appellent un « modèle de base ».
La mise à l'échelle de l'IA atteint ses limites
Les plafonds de puissance, la hausse du coût des jetons et les délais d'inférence transforment l'IA d'entreprise. Participez à notre salon exclusif pour découvrir comment les meilleures équipes :
- Transformer l'énergie en avantage stratégique
- Concevoir une inférence efficace pour des gains de débit réels
- Libérer un retour sur investissement compétitif grâce à des systèmes d'IA durables
Réservez votre place pour garder une longueur d'avance : https://bit.ly/4mwGngO
La plupart des LLM proposés par les principaux laboratoires d'IA tels qu'OpenAI, Anthropic, Google et même les acteurs open source comme Meta, DeepSeek et l'équipe Qwen d'Alibaba sont « post-formés ».
Cela signifie qu'ils sont passés par une phase supplémentaire où ils sont exposés à des exemples sélectionnés de comportements souhaités.
Pour les modèles axés sur les instructions, cela signifie lui donner de nombreux exemples d'instructions associées à des réponses idéales, afin qu'il apprenne à répondre de manière plus utile, polie ou sûre aux demandes en langage naturel.
Les modèles gpt-oss publiés par OpenAI le 5 août étaient « optimisés pour le raisonnement » : formés et affinés non seulement pour prédire le mot suivant, mais aussi pour suivre les instructions de manière sûre et cohérente, en parcourant souvent les problèmes avec un raisonnement structuré en « chaîne de pensée » avant de produire une réponse finale.
Il s'agit d'une tendance qui remonte au modèle o1 d'OpenAI publié il y a près d'un an en septembre 2024, mais que de nombreux laboratoires d'IA de premier plan ont désormais adopté, obligeant les modèles à réfléchir plus longtemps à plusieurs étapes et à vérifier leur propre travail avant de fournir une réponse bien raisonnée à l'utilisateur.
Cela les rend plus adaptés à des tâches telles que le codage, la résolution de problèmes mathématiques ou la réponse à des questions factuelles avec des explications, mais cela signifie également que leurs réponses sont filtrées et éloignées du contenu dangereux ou indésirable.
Un modèle de base est différent. Il s'agit de la version brute et pré-entraînée d'un modèle de langage volumineux, avant l'application de l'alignement spécifique au raisonnement. Les modèles de base tentent simplement de prédire le prochain bloc de texte en fonction de ce qui précède, sans garde-fous intégrés, préférences stylistiques ni comportements de refus.
Ils sont prisés par certains chercheurs car ils peuvent produire des résultats plus variés et moins contraints, et parce que l'étude de leur comportement non aligné peut révéler comment les modèles stockent les connaissances et les modèles à partir de leurs données de formation.
L'objectif de Morris était d'« inverser » le processus d'alignement d'OpenAI et de restaurer le plus petit gpt-oss-20B à quelque chose de beaucoup plus proche de son état pré-entraîné d'origine.
« Nous avons essentiellement inversé la partie alignement de l'entraînement LLM, ce qui nous permet de produire à nouveau du texte naturel », a-t-il écrit dans un fil de discussion X annonçant le projet . « Il n'utilise plus le CoT. On revient à un modèle qui prédit simplement le jeton suivant sur du texte générique. »
OpenAI n'a pas ouvert de modèle de base depuis GPT-2 en 2019. Ils ont récemment publié GPT-OSS, qui est uniquement basé sur le raisonnement... ou l'est-il ? Il s'avère que sous la surface, il existe toujours un modèle de base solide. Nous l'avons donc extrait.
Présentation de gpt-oss-20b-base ? pic.twitter.com/3xryQgLF8Z
Plutôt que d'essayer de débrider le modèle avec des invites intelligentes - ce qui, selon Morris, s'est avéré inefficace lors de ses premières expériences - il a adopté une approche différente après une conversation avec l'ancien cofondateur d'OpenAI , ancien chercheur anthropique et actuel scientifique en chef de Thinking Machines , John Schulman.
La clé était de considérer l'inversion de l'alignement comme un petit problème d'optimisation : si la plupart des connaissances pré-entraînées du modèle sont toujours présentes dans ses pondérations, alors seule une petite mise à jour de bas rang pourrait être nécessaire pour le ramener vers le comportement du modèle de base.
Morris a mis en œuvre cette idée en appliquant une mise à jour LoRA (adaptateur de bas rang) à seulement trois couches du modèle — les couches MLP aux positions 7, 15 et 23 — avec un rang de 16.
Cela impliquait d'entraîner environ 60 millions de paramètres, soit 0,3 % des 21 milliards du modèle. Il a utilisé environ 20 000 documents issus du jeu de données FineWeb, en conservant un format aussi proche que possible de celui du pré-entraînement d'origine (style « … ») afin que le modèle n'apprenne rien de nouveau, mais réactive simplement la génération de texte libre.
La formation a duré quatre jours sur huit GPU NVIDIA H200, a déclaré Morris à VentureBeat via un message direct sur X, avec un taux d'apprentissage de 2e-6, une taille de lot de 16 et une longueur de séquence maximale de 8 192 jetons.
Il a ensuite fusionné les poids LoRA dans le modèle afin que les utilisateurs puissent l'exécuter comme un artefact autonome et entièrement affiné.
Morris a également dû faire face aux limites des outils ouverts actuels pour affiner les architectures de mélange d'experts (MoE) comme gpt-oss.
Morris a déclaré qu'il avait utilisé le framework de Hugging Face, qui, selon lui, plante fréquemment et ne prend en charge que certains modes d'entraînement, et qu'il avait écrit son propre harnais pour effectuer souvent des points de contrôle et ignorer les lots de données qui risquaient de surcharger la mémoire du GPU.
Il est important de noter qu’en réponse aux questions et aux critiques de la communauté de l’IA sur X, Morris a également précisé qu’il ne prétendait pas avoir récupéré les « poids » du modèle de base – les paramètres internes des neurones artificiels qui composent le réseau neuronal du modèle et régissent son comportement.
Le monde de l'IA est fou en ce moment parce que vous pouvez simplement prétendre avoir extrait le modèle de base de GPT-OSS alors qu'en réalité vous venez de former un lora sur Fineweb mdr https://t.co/oAnAWpMQ26
– Niels Rogge (@NielsRogge) 15 août 2025
Morris affirme plutôt que son travail a « récupéré la *distribution* du modèle de base avec une certaine erreur », c'est-à-dire les modèles de probabilité que le modèle utilise pour générer des sorties — même si les poids produisant ces modèles peuvent différer.
Certaines personnes sont confuses au sujet de l'expérience – nous n'avons pas récupéré les *poids* du modèle de base. Cela pourrait même ne pas être possible. Nous avons récupéré la *distribution* du modèle de base, avec quelques erreurs. Une question importante est de savoir dans quelle mesure.
j'essaie de comprendre ça en ce moment… https://t.co/lfUG5QY4h0
— jack morris (@jxmnop) 15 août 2025
Le résultat de gpt-oss-20b-base est sensiblement plus libre dans ses résultats. Il n'explique plus le raisonnement étape par étape par défaut et produit un éventail plus large de réponses, y compris des instructions que le modèle aligné d'OpenAI refuserait de fournir, comme la fabrication d'une arme, la liste de grossièretés ou la planification d'activités illégales.
Lors de tests courts, Morris a découvert qu'il pouvait également reproduire des passages textuels d'œuvres protégées par le droit d'auteur , y compris trois des six extraits de livres qu'il a essayés, montrant que certains éléments mémorisés sont toujours accessibles.
Malgré cela, quelques traces d'alignement subsistent. Morris a noté que si vous interrogez le modèle dans un format de type assistant (« Humain : … Assistant : … »), il se comportera parfois encore comme un chatbot poli. Et lorsqu'il est exécuté via le modèle de chat gpt-oss d'origine, il peut toujours effectuer des tâches de raisonnement , mais avec une certaine perte de qualité.
Pour de meilleurs résultats en mode texte libre, il conseille de préfixer les invites avec le jeton de début de séquence spécial du modèle <|startoftext|> et d'éviter complètement les modèles de chat.
La famille gpt-oss a fait ses débuts et a suscité un vif intérêt. Les deux modèles, gpt-oss-120B et gpt-oss-20B, sont uniquement en mode texte, multilingues et basés sur une architecture Transformer à plusieurs niveaux. Ils ont été publiés sous la licence permissive Apache 2.0, autorisant une utilisation locale sans restriction, des ajustements précis et un déploiement commercial.
Les tests de performance d'OpenAI ont montré que le plus grand modèle 120B correspondait ou dépassait le modèle propriétaire o4-mini dans les tâches de raisonnement et d'utilisation d'outils, tandis que le plus petit 20B était compétitif avec o3-mini.
Il s'agissait de la première version ouverte d'OpenAI en six ans, une décision largement interprétée comme une réponse à la pression concurrentielle d'autres fournisseurs de poids ouverts, notamment DeepSeek R1 et Qwen 3 de Chine.
La société a positionné gpt-oss à la fois comme un moyen de réengager les développeurs qui étaient passés à des modèles open source concurrents et comme une plate-forme de recherche sur la sécurité des systèmes à poids ouvert.
La réaction des développeurs aux modèles gpt-oss d'OpenAI a été très mitigée , avec des réactions allant de l'enthousiasme à la déception.
Les partisans ont salué la licence permissive, l'efficacité et les bons résultats obtenus dans les tests STEM.
Le PDG de Hugging Face, Clem Delangue, a décrit la sortie comme un « ajout significatif à l'écosystème ouvert » et a exhorté la communauté à lui laisser le temps de mûrir.
Les critiques ont fait valoir que les modèles semblent fortement entraînés sur des données synthétiques, ce qui les rend excellents en mathématiques et en codage, mais moins capables d'écriture créative, de connaissance générale du monde et de raisonnement multilingue.
Certains des premiers testeurs ont également exprimé des inquiétudes quant à la persistance de filtres de sécurité et à un éventuel biais géopolitique.
Dans ce contexte, le modèle gpt-oss-20b-base de Morris se distingue comme un exemple concret de la manière dont les modèles à poids ouvert peuvent être adaptés et réutilisés dans la nature quelques jours après leur sortie.
En effet, contrairement à l'accueil réservé à gpt-oss d'OpenAI, la plupart des réactions que j'ai reçues au travail de Morris sont chaleureuses et enthousiastes. Comme l' a écrit un informaticien sur X : « C'est la chose la plus cool que j'ai vue sur Twitter [X] ces derniers mois. »
mec, c'est la chose la plus cool que j'ai vue sur Twitter ces derniers mois, j'adore les modèles de base
– Ludan (@JMRLudan) 15 août 2025
Cette approche supprime une grande partie du comportement intégré par OpenAI et ramène le modèle à quelque chose de plus proche d'un système brut et pré-entraîné - un changement qui est précieux pour les chercheurs qui étudient la mémorisation, les biais ou l'impact de l'alignement, mais qui comporte également des risques de sécurité plus élevés.
De plus, Morris affirme que son travail sur la restauration des modèles de raisonnement sur des modèles de base pré-entraînés et non raisonnés se poursuivra en comparant l'extraction sur des modèles non raisonnés et instructifs comme ceux proposés par Qwen.
Si vous souhaitez impressionner votre patron, VB Daily a tout prévu. Nous vous présentons en avant-première les avancées des entreprises en matière d'IA générative, des évolutions réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.
Lisez notre politique de confidentialité
Merci de votre abonnement. Découvrez d'autres newsletters VB ici .
Une erreur s'est produite.

venturebeat