¿Por qué ChatGPT no es una verdadera IA?

La inteligencia artificial ha sido un sueño durante siglos, pero solo recientemente se ha popularizado gracias a los enormes avances en potencia informática y análisis de datos. Los grandes modelos de lenguaje (LLM), como ChatGPT, son esencialmente una forma muy avanzada de autocompletado. Su impresionante potencial reside en que los datos de entrenamiento abarcan todo internet. Los LLM pueden ser un ingrediente en la fórmula de la verdadera inteligencia artificial general, pero ciertamente no son la fórmula completa, y probablemente aún desconocemos cuáles son algunos de los demás ingredientes.
Gracias a ChatGPT, por fin podemos experimentar la inteligencia artificial. Solo necesitas un navegador web. Podrás hablar directamente con el sistema de IA más avanzado del planeta: un logro culminante tras 70 años de esfuerzo. Y parece IA real, la IA que todos hemos visto en las películas. Pero ¿significa esto que por fin hemos encontrado la fórmula para la IA real? ¿Se vislumbra el fin de la IA?
Según Popular Science Turkish, la inteligencia artificial es uno de los sueños más antiguos de la humanidad. Se remonta al menos a la antigua Grecia y a la leyenda de Hefesto, el herrero de los dioses. Hefesto tenía el poder de dar vida a criaturas de metal. Desde entonces, han surgido diversas interpretaciones de este tema en la mitología y la ficción. Sin embargo, la inteligencia artificial comenzó a parecer plausible con la invención de la computadora a finales de la década de 1940.
Una fórmula para la inteligencia artificial simbólicaLas computadoras son máquinas que siguen instrucciones. Los programas que les damos no son más que instrucciones detalladas; son fórmulas que la computadora sigue fielmente. Tu navegador web, cliente de correo electrónico y procesador de textos son simplemente esta lista increíblemente detallada de instrucciones. Así que, si la "inteligencia artificial real" fuera posible —el sueño de computadoras tan capaces como los humanos—, se reduciría a dicha fórmula. Todo lo que necesitamos hacer para que la IA sea una realidad es encontrar la fórmula adecuada. Entonces, ¿cómo sería dicha fórmula? Y dado el reciente entusiasmo en torno a ChatGPT, GPT-4 y BARD (llamados apropiadamente modelos de lenguaje extendidos [LLM]), ¿hemos encontrado finalmente la fórmula para la verdadera IA?
Durante casi 40 años, el concepto fundamental que guió los intentos de desarrollar inteligencia artificial fue modelar la mente consciente: los pensamientos y procesos de razonamiento que constituyen nuestra existencia consciente. Este enfoque se denominó IA simbólica porque nuestros pensamientos y razonamiento parecían implicar lenguajes compuestos por símbolos: letras, palabras y signos de puntuación. La IA simbólica implicaba no solo encontrar fórmulas que capturaran estas expresiones simbólicas, sino también replicar el razonamiento y la toma de decisiones mediante la manipulación de estos símbolos.
La IA simbólica había alcanzado cierto éxito, pero fracasó estrepitosamente en una amplia gama de tareas que parecían triviales para los humanos. Incluso una tarea tan sencilla como reconocer un rostro humano estaba fuera del alcance de la IA simbólica. Esto se debe a que reconocer rostros requiere percepción. La percepción es el problema de comprender lo que vemos, oímos y sentimos. La mayoría de nosotros damos por sentado la percepción; no pensamos mucho en ella y, desde luego, no la asociamos con la inteligencia. Pero la IA simbólica era la forma equivocada de intentar resolver problemas que requieren percepción.
Las redes neuronales están llegandoUna fórmula alternativa para la inteligencia artificial consiste en modelar las estructuras que observamos en el cerebro en lugar de modelar la mente. Al fin y al cabo, el cerebro humano es la única entidad que conocemos hoy capaz de generar inteligencia humana. Si observamos un cerebro al microscopio, veremos una gran cantidad de células nerviosas, llamadas neuronas, conectadas entre sí en extensas redes. Cada neurona busca patrones dentro de su red de conexiones. Cuando una neurona reconoce un patrón, envía señales a sus vecinas. Estas, a su vez, buscan patrones y, al detectar uno, se comunican con sus compañeras, y así sucesivamente.
No podemos explicarlo lógicamente, pero de alguna manera estas redes masivas de neuronas pueden aprender y, en última instancia, producir un comportamiento inteligente. El campo de las redes neuronales surgió en la década de 1940 y se inspiró en la idea de que estas redes neuronales podían emularse con circuitos eléctricos. Las redes neuronales actuales se implementan en software en lugar de circuitos eléctricos, y, francamente, quienes las investigan no intentan modelar el cerebro. Sin embargo, las estructuras de software que utilizan —vastas redes compuestas por dispositivos computacionales muy simples— se inspiran en las estructuras neuronales que observamos en el cerebro y el sistema nervioso.
Las redes neuronales, cuyo éxito ha fluctuado en diversas épocas (especialmente a finales de los años sesenta y mediados de los ochenta), se han estudiado continuamente desde la década de 1940 y a menudo se las considera competidoras de la inteligencia artificial simbólica. Sin embargo, no fue hasta la última década que las redes neuronales comenzaron a funcionar de forma consistente. Todo el entusiasmo que hemos visto en la IA durante la última década se debe a los rápidos avances que las redes neuronales han logrado en diversos problemas de IA.
Desafortunadamente, el auge de las redes neuronales en este siglo se debió a razones comunes. Claro que hubo avances científicos, como nuevas estructuras de redes neuronales y los algoritmos que las estructuran. Pero, en realidad, las ideas centrales de las redes neuronales actuales se conocían desde la década de 1980. Este siglo trajo consigo una gran cantidad de datos y una gran capacidad de procesamiento. El entrenamiento de una red neuronal requiere ambos, y ambos se han vuelto comunes en este siglo.
Todos los sistemas de IA que han sido noticia recientemente utilizan redes neuronales. Por ejemplo, AlphaGo, el famoso software de Go desarrollado por la firma de IA londinense DeepMind, que derrotó a un campeón mundial en marzo de 2016, utiliza dos redes neuronales, cada una con 12 capas. Los datos para entrenar estas redes provienen de partidas de Go anteriores jugadas en línea, así como de partidas que el software juega contra sí mismo. Los sistemas de IA que han sido noticia en los últimos años, como ChatGPT y GPT-4 de la firma de IA OpenAI, respaldada por Microsoft, y BARD de Google, también utilizan redes neuronales. Lo que distingue a estos últimos desarrollos es simplemente su gran tamaño. Todo en estos modelos es alucinante en su escala.
Masiva potencia, masiva informaciónConsideremos el sistema GPT-3 de OpenAI, anunciado en el verano de 2020. Esta es la tecnología subyacente de ChatGPT. Fue el LLM el que marcó un avance revolucionario en dicha tecnología. Las redes neuronales que componen GPT-3 son enormes. Cuando quienes estudian redes neuronales describen el tamaño de una red, se refieren a su número de "parámetros". En este contexto, un "parámetro" es una sola neurona o un componente de la red, una conexión entre neuronas. GPT-3 tiene 175 mil millones de parámetros en total, mientras que se dice que GPT-4 tiene un billón. En comparación, un cerebro humano tiene alrededor de 100 mil millones de neuronas en total, conectadas por hasta 1000 billones de conexiones sinápticas. Si bien los LLM existentes son enormes, aún están lejos de la escala del cerebro humano.
Los datos utilizados para entrenar GPT consistieron en 575 gigabytes de texto. Quizás pienses: «No parece mucho; después de todo, se puede almacenar en una computadora normal». Pero no se trata de vídeos, fotos ni música; es simplemente texto plano. Y 575 gigabytes de texto plano son una cantidad inimaginablemente grande: muchísimo más de lo que una persona podría leer en toda su vida. ¿De dónde sacaron todo este texto? Descargaron la World Wide Web. Toda. Se siguió cada enlace de cada página web, se extrajo el texto y luego se repitió el proceso, siguiendo sistemáticamente cada enlace hasta generar cada fragmento de texto de la web. La Wikipedia en inglés solo representó el 3 % del total de datos de entrenamiento.
Pero ¿qué hay de la computadora necesaria para procesar todo ese texto y entrenar estas redes masivas? Los informáticos usan el término "operación de punto flotante" o "FLOP" para referirse a un solo cálculo aritmético; un FLOP es una sola operación de suma, resta, multiplicación o división. Entrenar GPT-3 requirió 3^1023 FLOP. Nuestra humilde experiencia humana no nos capacita para comprender números tan grandes. Dicho de otro modo: si intentara entrenar GPT-3 en una computadora de escritorio típica construida en 2023, tendría que funcionar continuamente durante unos 10 000 años para ejecutar esa cantidad de FLOP.
Por supuesto, OpenAI no entrenó GPT-3 en una computadora de escritorio. Utilizaron supercomputadoras muy costosas con miles de procesadores de IA especializados, funcionando sin parar durante meses. Y esa cantidad de computación no es barata. El tiempo de computación necesario para entrenar GPT-3 cuesta millones de dólares en el mercado abierto. Esto, más que cualquier otra cosa, significa que pocas organizaciones, salvo un puñado de grandes empresas tecnológicas y estados-nación, pueden permitirse desarrollar sistemas como ChatGPT.
Bajo el paraguas de LLMA pesar de su escala alucinante, los LLM en realidad hacen algo muy simple. Imagina encender tu smartphone y empezar a escribirle a tu pareja "cuando". Tu teléfono sugiere cosas para complementar ese texto. Por ejemplo, podría sugerir cosas como "vienes a casa" o "vamos a cenar". Sugiere estas cosas porque tu teléfono predice que estas son las palabras más probables que aparecen después de "cuando". Tu teléfono realiza esta predicción basándose en todos los mensajes de texto que has enviado, y a partir de ellos, ha aprendido que estos son los complementos más probables de "cuando". Los LLM hacen lo mismo, pero como hemos visto, a una escala mucho mayor. Los datos de entrenamiento no son solo tus mensajes de texto; es todo el texto del mundo en formato digital. ¿Qué arroja esta escala? Es bastante notable e inesperado.
Lo primero que notamos al usar ChatGPT o BARD es su excelente capacidad para producir texto muy natural. Esto no es sorprendente; para eso están diseñados, y ese es el propósito de esos 575 gigabytes de texto. Pero lo inesperado es que los LLM también adquieren otras capacidades que aún desconocemos: capacidades que deben comprenderse de forma implícita dentro del vasto corpus de texto con el que se entrenan.
Por ejemplo, podemos pedirle a ChatGPT que resuma un texto y, por lo general, realiza un trabajo encomiable. Podemos pedirle que extraiga puntos clave del texto o compare fragmentos de texto, y parece que también lo hace bastante bien. Si bien los investigadores de IA se alarmaron por el poder de los LLM cuando se lanzó GPT-3 en 2020, el resto del mundo no se dio cuenta hasta el lanzamiento de ChatGPT en noviembre de 2022. Atrajo a cientos de millones de usuarios en pocos meses. La IA ha sido un tema recurrente durante una década, pero el revuelo en la prensa y las redes sociales cuando se lanzó ChatGPT fue sin precedentes: la IA se volvió viral.
La era de la inteligencia artificialLlegados a este punto, necesito decir algo reconfortante. Gracias a ChatGPT, por fin hemos llegado a la era de la inteligencia artificial. Cada día, cientos de millones de personas interactúan con la IA más compleja del planeta. Esto requirió 70 años de esfuerzo científico, innumerables carreras, miles de millones de dólares en inversión, cientos de miles de artículos científicos y supercomputadoras de IA funcionando a toda velocidad durante meses. La inteligencia artificial que el mundo finalmente ha alcanzado es… la finalización de pedidos.
El futuro de empresas multimillonarias está en juego. Su destino depende de… satisfacer solicitudes. Exactamente lo que hace tu celular. Como investigador de IA con más de 30 años de experiencia en este campo, debo decir que esta situación me resulta profundamente preocupante. Es realmente vergonzosa. ¿Quién hubiera imaginado que esta versión de IA acabaría siendo la más cara?
Cada vez que vemos avances rápidos en IA, alguien acaba declarando que hemos terminado, que estamos en el camino hacia la verdadera IA. Dado el éxito de los LLM, no sorprende que ahora se hagan afirmaciones similares. Así que, detengámonos un momento y reflexionemos. Si tenemos éxito en IA, las máquinas deberán ser capaces de hacer todo lo que un humano puede hacer.
Consideremos las dos ramas principales de la inteligencia humana: una involucra las habilidades puramente mentales, la otra las habilidades físicas. Por ejemplo, las habilidades mentales incluyen el razonamiento lógico y abstracto, el razonamiento de sentido común (como comprender que un huevo caído se romperá o que no puedo comer Kansas), el razonamiento numérico y matemático, la resolución de problemas y la planificación, el procesamiento del lenguaje natural, un estado mental lógico, una actividad, la capacidad de recordar y la capacidad de empatizar. Las habilidades físicas incluyen la comprensión sensorial (es decir, la interpretación de la información de nuestros cinco sentidos), la movilidad, la orientación, la destreza y los movimientos manuales, la coordinación ojo-mano y la propiocepción.
Enfatizo que esta lista de capacidades humanas está lejos de ser exhaustiva. Pero si alguna vez tenemos una IA verdadera —una IA tan competente como nosotros—, sin duda poseerá todas estas capacidades.
Los LLM no son una verdadera IALo más obvio es que los LLM no son una tecnología adecuada para ninguna de estas capacidades físicas. Los LLM no existen en el mundo real, y los desafíos que plantea la IA robótica no tienen ninguna relevancia con lo que los LLM fueron diseñados para abordar. Además, el progreso en IA robótica ha sido mucho más lento que el de los LLM. Sorprendentemente, capacidades robóticas como la destreza manual aún están lejos de resolverse. Además, los LLM no ofrecen soluciones para estos desafíos.
Claro que se podría considerar que un sistema de IA es pura inteligencia de software, así que ¿cómo se comparan los LLM con las capacidades mentales mencionadas anteriormente? De estas, se podría argumentar que los LLM solo han logrado avances significativos en el procesamiento del lenguaje natural, es decir, la capacidad de comunicarse eficazmente en lenguajes humanos comunes. Nada sorprendente; para eso fueron diseñados.
Pero la asombrosa destreza que demuestran en la comunicación similar a la humana quizá nos lleve a creer que son mucho más competentes en otras cosas de lo que realmente son. Pueden realizar razonamiento lógico artificial y resolver problemas, pero por ahora son superficiales. Quizás debería sorprendernos que puedan hacer algo más allá del procesamiento del lenguaje natural. No fueron diseñados para nada más, así que lo demás es una ventaja; cualquier capacidad adicional debe estar implícita en el texto con el que se entrenó el sistema.
Por estas y otras razones, me parece improbable que la tecnología LLM por sí sola ofrezca un camino hacia la "verdadera IA". No existen realmente en nuestro mundo, y ni siquiera se dan cuenta. Si dejas un LLM a media conversación y te vas de vacaciones una semana, no se preguntarán dónde estás. No son conscientes del paso del tiempo y, de hecho, no son conscientes de nada. Son un programa informático que no hace literalmente nada hasta que escribes una instrucción; luego, simplemente calcula una respuesta a esa instrucción, momento en el que vuelven a no hacer nada. Su conocimiento enciclopédico del mundo permanece en el punto en el que fueron entrenados. No saben nada más allá de eso.
Además, los LLM nunca han experimentado nada. Son simplemente programas que han digerido cantidades inimaginables de texto. Puede que los LLM describan de forma fantástica la sensación de estar borracho, pero eso se debe a que han leído innumerables descripciones. No lo han experimentado en persona, y no pueden. Su único objetivo es formular la mejor respuesta posible a cualquier sugerencia que se les presente.
Eso no significa que no sean impresionantes (que lo son) ni que no puedan ser útiles (que sí lo son). De hecho, creo que nos encontramos en un verdadero punto de inflexión tecnológico. Pero no confundamos estos logros genuinos con la "IA real". Los LLM pueden ser un ingrediente en la fórmula de la IA real, pero ciertamente no son la fórmula completa, y sospecho que aún desconocemos cuáles son algunos de los demás ingredientes.
Cumhuriyet