La obsesión de la industria de la IA por escalar está al borde del colapso

Un nuevo estudio del MIT sugiere que los modelos de IA más grandes y computacionalmente intensivos podrían pronto ofrecer rendimientos decrecientes en comparación con los modelos más pequeños. Al comparar las leyes de escalamiento con las mejoras continuas en la eficiencia del modelo, los investigadores descubrieron que podría ser más difícil obtener mejoras de rendimiento en modelos gigantes, mientras que las mejoras de eficiencia podrían hacer que los modelos que se ejecutan en hardware más modesto sean cada vez más capaces durante la próxima década.
"Es muy probable que en los próximos cinco a diez años las cosas empiecen a estrecharse", dice Neil Thompson, científico informático y profesor del MIT que participó en el estudio.
Los saltos en eficiencia, como los que se vieron con el modelo notablemente de bajo costo de DeepSeek en enero, ya han servido como una verificación de la realidad para la industria de la IA, que está acostumbrada a consumir enormes cantidades de computación.
En la actualidad, un modelo de frontera de una empresa como OpenAI es mucho mejor que un modelo entrenado con una fracción de la computación de un laboratorio académico. Si bien la predicción del equipo del MIT podría no ser válida si, por ejemplo, nuevos métodos de entrenamiento como el aprendizaje por refuerzo producen resultados sorprendentes, sugiere que las grandes empresas de IA tendrán menos ventaja en el futuro.
Hans Gundlach, investigador del MIT que dirigió el análisis, se interesó en el tema debido a la complejidad de ejecutar modelos de vanguardia. Junto con Thompson y Jayson Lynch, otro investigador del MIT, proyectó el rendimiento futuro de los modelos de frontera en comparación con aquellos construidos con recursos computacionales más modestos. Gundlach afirma que la tendencia prevista es especialmente pronunciada para los modelos de razonamiento actualmente en boga, que dependen más de cálculos adicionales durante la inferencia.
Thompson afirma que los resultados demuestran la importancia de perfeccionar un algoritmo, así como de ampliar la capacidad de procesamiento. "Si se invierte mucho dinero en entrenar estos modelos, sin duda debería invertirse una parte en desarrollar algoritmos más eficientes, ya que esto puede ser crucial", añade.
El estudio es particularmente interesante dado el auge actual de la infraestructura de IA (¿o deberíamos decir “burbuja”?), que muestra pocas señales de desaceleración.
OpenAI y otras empresas tecnológicas estadounidenses han firmado acuerdos por cientos de miles de millones de dólares para construir infraestructura de IA en Estados Unidos. «El mundo necesita mucha más computación», declaró esta semana el presidente de OpenAI, Greg Brockman, al anunciar una colaboración entre OpenAI y Broadcom para chips de IA personalizados.
Un número creciente de expertos cuestiona la solidez de estos acuerdos. Aproximadamente el 60 % del coste de construir un centro de datos se destina a las GPU, que tienden a depreciarse rápidamente. Las alianzas entre las principales empresas también parecen circulares y opacas .
Jamie Dimon, director ejecutivo de JP Morgan, es la última figura importante del mundo financiero en lanzar una advertencia, según declaró a la BBC la semana pasada: «El nivel de incertidumbre debería ser mayor en la mente de la mayoría de la gente».
La fiebre del oro por la infraestructura de IA no se limita únicamente a la creación de modelos más potentes. OpenAI apuesta, en efecto, a que la demanda de nuevas herramientas de IA generativa crecerá exponencialmente. La compañía también podría estar buscando reducir su dependencia de Microsoft y Nvidia y convertir su enorme valoración de 500 000 millones de dólares en infraestructura que pueda diseñar y personalizar.
Aun así, parecería prudente que la industria utilizara análisis como el que presentó el MIT para explorar cómo pueden evolucionar los algoritmos y el hardware en los próximos años.
El auge de la construcción que sustenta gran parte de la economía estadounidense también podría tener consecuencias para la innovación estadounidense. Al invertir tanto en GPU y otros chips especializados para el aprendizaje profundo, las empresas de IA podrían perder nuevas oportunidades que podrían surgir de la exploración de ideas desde la periferia académica, como alternativas al aprendizaje profundo, nuevos diseños de chips e incluso enfoques como la computación cuántica. Al fin y al cabo, de ahí provienen los avances actuales en IA.
¿Te preocupa el dinero que se está invirtiendo en nueva infraestructura de IA? Envía un correo electrónico a [email protected] para compartir tu opinión.
Esta es una edición del boletín del Laboratorio de IA de Will Knight . Lea los boletines anteriores aquí.
wired




