Seleccione idioma

Spanish

Down Icon

Seleccione país

America

Down Icon

¡Caramba! Una nueva variante de DeepSeek R1-0528, un 200 % más rápida, ha aparecido en el laboratorio alemán TNG Technology Consulting GmbH.

¡Caramba! Una nueva variante de DeepSeek R1-0528, un 200 % más rápida, ha aparecido en el laboratorio alemán TNG Technology Consulting GmbH.

¿Quieres recibir información más inteligente en tu bandeja de entrada? Suscríbete a nuestros boletines semanales para recibir solo lo que importa a los líderes empresariales en IA, datos y seguridad. Suscríbete ahora.

Ha pasado poco más de un mes desde que la startup china de inteligencia artificial DeepSeek, una rama de High-Flyer Capital Management con sede en Hong Kong, lanzó la última versión de su exitoso modelo de código abierto DeepSeek, R1-0528.

Al igual que su predecesor, DeepSeek-R1 (que sacudió a las comunidades de IA y de negocios globales por lo barato que fue entrenado y lo bien que se desempeñó en tareas de razonamiento, todo disponible para desarrolladores y empresas de forma gratuita), R1-0528 ya está siendo adaptado y remezclado por otros laboratorios de IA y desarrolladores, en gran parte gracias a su licencia permisiva Apache 2.0.

Esta semana, la firma alemana TNG Technology Consulting GmbH, con 24 años de antigüedad, lanzó una de estas adaptaciones: DeepSeek-TNG R1T2 Chimera , el último modelo de su familia de modelos de lenguaje grande (LLM) Chimera. R1T2 ofrece una mejora notable en eficiencia y velocidad, alcanzando puntuaciones superiores al 90 % de las puntuaciones de referencia de inteligencia de R1-0528 , a la vez que genera respuestas con menos del 40 % de su recuento de tokens de salida .

Esto significa que produce respuestas más cortas, lo que se traduce directamente en una inferencia más rápida y menores costos de computación . En la tarjeta modelo que TNG lanzó para su nuevo R1T2 en la comunidad de intercambio de código de IA Hugging Face, la compañía afirma que es "aproximadamente un 20 % más rápido que el R1 estándar" (el lanzado en enero) "y más del doble de rápido que el R1-0528" (la actualización oficial de mayo de DeepSeek).

La respuesta de la comunidad de desarrolladores de IA ya ha sido increíblemente positiva. "¡Rayos! DeepSeek R1T2: un 200 % más rápido que R1-0528 y un 20 % más rápido que R1", escribió Vaibhav (VB) Srivastav, líder sénior de Hugging Face, en X. "Significativamente mejor que R1 en GPQA y AIME 24, creado mediante Assembly of Experts con DS V3, R1 y R1-0528, y con licencia del MIT, disponible en Hugging Face".

Esta ganancia es posible gracias al método de Asamblea de Expertos (AoE) de TNG, una técnica para construir LLM mediante la fusión selectiva de tensores de peso (parámetros internos) de múltiples modelos entrenados previamente que TNG describió en un artículo publicado en mayo en arXiv, la revista en línea de acceso abierto no revisada por pares.

Como sucesor del R1T Chimera original, el R1T2 presenta una nueva configuración "Tri-Mind" que integra tres modelos principales: DeepSeek-R1-0528, DeepSeek-R1 y DeepSeek-V3-0324. El resultado es un modelo diseñado para mantener una alta capacidad de razonamiento y reducir significativamente el coste de inferencia.

R1T2 se construye sin necesidad de ajustes ni reentrenamiento adicionales. Hereda la solidez de razonamiento de R1-0528, los patrones de pensamiento estructurados de R1 y el comportamiento conciso y orientado a instrucciones de V3-0324, lo que proporciona un modelo más eficiente y a la vez capaz para uso empresarial y de investigación.

La Mezcla de Expertos (MoE) es un diseño arquitectónico en el que diferentes componentes, o "expertos", se activan condicionalmente por cada entrada. En LLM de MoE como DeepSeek-V3 o Mixtral, solo un subconjunto de las capas expertas del modelo (p. ej., 8 de 256) está activo durante el paso hacia adelante de cualquier token. Esto permite que los modelos muy grandes alcancen un mayor número de parámetros y especialización, manteniendo al mismo tiempo los costos de inferencia a un nivel bajo, ya que solo se evalúa una fracción de la red por token.

El Ensamblaje de Expertos (AoE) es una técnica de fusión de modelos, no una arquitectura. Se utiliza para crear un nuevo modelo a partir de múltiples modelos MoE preentrenados mediante la interpolación selectiva de sus tensores de peso.

Los “expertos” en AoE se refieren a los componentes del modelo que se fusionan (normalmente, los tensores expertos enrutados dentro de las capas de MoE), no a los expertos activados dinámicamente en el tiempo de ejecución.

La implementación de AoE en TNG se centra principalmente en la fusión de tensores expertos enrutados (la parte del modelo responsable del razonamiento especializado), conservando a menudo las capas compartidas y de atención más eficientes de modelos más rápidos como V3-0324. Este enfoque permite que los modelos Chimera resultantes hereden la solidez del razonamiento sin replicar la verbosidad ni la latencia de los modelos principales más robustos.

Según las comparaciones de referencia presentadas por TNG, R1T2 logra entre el 90% y el 92% del rendimiento de razonamiento de su padre más inteligente, DeepSeek-R1-0528, según lo medido por los conjuntos de pruebas AIME-24, AIME-25 y GPQA-Diamond.

Sin embargo, a diferencia de DeepSeek-R1-0528, que tiende a producir respuestas largas y detalladas debido a su razonamiento en cadena de pensamiento extendido, R1T2 está diseñado para ser mucho más conciso. Ofrece respuestas igualmente inteligentes, pero con un uso significativamente menor de palabras.

En lugar de centrarse en el tiempo de procesamiento bruto o en los tokens por segundo, TNG mide la velocidad en términos de la cantidad de tokens de salida por respuesta , un indicador práctico tanto del coste como de la latencia. Según los puntos de referencia compartidos por TNG, R1T2 genera respuestas utilizando aproximadamente el 40 % de los tokens requeridos por R1-0528.

Esto se traduce en una reducción del 60% en la longitud de salida , lo que reduce directamente el tiempo de inferencia y la carga de cálculo, acelerando las respuestas en 2X, o 200%.

En comparación con el DeepSeek-R1 original, el R1T2 también es alrededor de un 20 % más conciso en promedio , lo que ofrece ganancias significativas en eficiencia para implementaciones de alto rendimiento o sensibles a los costos.

Esta eficiencia no se consigue a costa de la inteligencia. Como se muestra en el gráfico de referencia presentado en el documento técnico de TNG, R1T2 se encuentra en una zona deseable en la curva de inteligencia vs. coste de salida. Conserva la calidad del razonamiento a la vez que minimiza la verbosidad, un resultado crucial para las aplicaciones empresariales donde la velocidad de inferencia, el rendimiento y el coste son cruciales.

R1T2 se publica bajo una licencia MIT permisiva y ya está disponible en Hugging Face, lo que significa que es de código abierto y está disponible para ser utilizado e integrado en aplicaciones comerciales.

TNG señala que, si bien el modelo es adecuado para tareas de razonamiento general, actualmente no se recomienda para casos de uso que requieran la llamada a funciones o el uso de herramientas, debido a las limitaciones heredadas de su linaje DeepSeek-R1. Estas podrían solucionarse en futuras actualizaciones.

La empresa también aconseja a los usuarios europeos que evalúen el cumplimiento de la Ley de IA de la UE, que entrará en vigor el 2 de agosto de 2025.

Las empresas que operan en la UE deberían revisar las disposiciones pertinentes o considerar suspender el uso del modelo después de esa fecha si no pueden cumplirse los requisitos.

Sin embargo, las empresas estadounidenses que operan a nivel nacional y prestan servicios a usuarios en EE. UU. o en otros países no están sujetas a los términos de la Ley de IA de la UE, lo que debería brindarles una considerable flexibilidad al usar e implementar este modelo de razonamiento gratuito, rápido y de código abierto. Si prestan servicios a usuarios en la UE, algunas disposiciones de la Ley de la UE seguirán siendo aplicables .

TNG ya ha puesto a disposición variantes anteriores de Chimera a través de plataformas como OpenRouter y Chutes, donde, según se informa, procesan miles de millones de tokens diariamente. El lanzamiento de R1T2 representa un avance en esta iniciativa de disponibilidad pública.

Fundada en enero de 2001, TNG Technology Consulting GmbH tiene su sede en Baviera, Alemania, y emplea a más de 900 personas, con una alta concentración de doctores y especialistas técnicos.

La empresa se centra en el desarrollo de software, inteligencia artificial y servicios DevOps/nube, atendiendo a importantes clientes empresariales de industrias como telecomunicaciones, seguros, automotriz, comercio electrónico y logística.

TNG opera como una sociedad de consultoría basada en valores. Su estructura única, cimentada en la investigación operativa y los principios de autogestión, fomenta una cultura de innovación técnica.

Contribuye activamente a las comunidades y a la investigación de código abierto, como lo demuestra a través de lanzamientos públicos como R1T2 y la publicación de su metodología Asamblea de Expertos.

Para los directores de tecnología, propietarios de plataformas de IA, líderes de ingeniería y equipos de compras de TI, R1T2 presenta beneficios tangibles y opciones estratégicas:

  • Costos de inferencia más bajos : con menos tokens de salida por tarea, R1T2 reduce el tiempo de GPU y el consumo de energía, lo que se traduce directamente en ahorros de infraestructura, especialmente importante en entornos de alto rendimiento o en tiempo real.
  • Alta calidad de razonamiento sin sobrecarga : Conserva gran parte de la capacidad de razonamiento de modelos de alto nivel como el R1-0528, pero sin su complejidad. Es ideal para tareas estructuradas (matemáticas, programación, lógica) donde se prefieren respuestas concisas.
  • Abierto y modificable : la licencia MIT permite un control y personalización total de la implementación, lo que posibilita el alojamiento privado, la alineación de modelos o una mayor capacitación dentro de entornos regulados o aislados.
  • Modularidad emergente : el enfoque AoE sugiere un futuro en el que los modelos se construyen de forma modular, lo que permite a las empresas ensamblar variantes especializadas recombinando las fortalezas de los modelos existentes, en lugar de volver a capacitarlos desde cero.
  • Advertencias : Las empresas que dependen de llamadas de funciones, uso de herramientas u orquestación avanzada de agentes deben tener en cuenta las limitaciones actuales, aunque futuras actualizaciones de Chimera pueden abordar estas brechas.

TNG anima a investigadores, desarrolladores y usuarios empresariales a explorar el modelo, probar su comportamiento y ofrecer su opinión. El R1T2 Chimera está disponible en huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera y las consultas técnicas pueden dirigirse a [email protected] .

Para conocer los antecedentes técnicos y la metodología de referencia, el documento de investigación de TNG está disponible en arXiv:2506.14794 .

Perspectivas diarias sobre casos de uso empresarial con VB Daily

Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.

Lea nuestra Política de Privacidad

Gracias por suscribirte. Consulta más boletines de VB aquí .

Se produjo un error.

venturebeat

venturebeat

Noticias similares

Todas las noticias
Animated ArrowAnimated ArrowAnimated Arrow