Modelos de IA con razonamiento mejoran la precisión pero incrementan emisiones de CO₂ significativamente
Estudio evalúa 14 modelos de lenguaje grandes y revela compensaciones entre rendimiento y sostenibilidad ambiental
Autor - Aldo Venuta Rodríguez
3 min lectura
Una nueva investigación del Centro de Ciencias Digitales e Inteligencia Artificial de Múnich revela que los modelos de inteligencia artificial con capacidades de razonamiento mejoran significativamente la precisión de sus respuestas, pero a costa de generar emisiones de CO₂ sustancialmente mayores. El estudio analizó 14 modelos de lenguaje grandes con parámetros que van desde 7 mil millones hasta 72 mil millones.
Los investigadores evaluaron modelos como Llama3.1 de Meta, Qwen de Alibaba y Deepseek R1, sometiendo cada uno a 500 preguntas de opción múltiple y 500 de respuesta libre del conjunto de datos Massive Multitask Language Understanding (MMLU). Las emisiones se midieron utilizando una GPU NVIDIA A100 y se convirtieron aplicando un factor de emisión de 480 gramos de CO₂ por kilovatio hora.
Los resultados muestran diferencias dramáticas en el consumo energético. El modelo más eficiente, Qwen 7B, generó apenas 27,7 gramos de CO₂ equivalente para procesar las 1.000 preguntas, pero alcanzó solo un 32,9% de precisión. En contraste, el modelo Deepseek-R1 70B con razonamiento habilitado emitió 2.042,4 gramos de CO₂ equivalente, logrando una precisión del 78,9%.
El modelo Cogito 70B con razonamiento demostró el mejor equilibrio entre rendimiento y eficiencia ambiental, alcanzando la máxima precisión del 84,9% mientras emitía 1.341,1 gramos de CO₂ equivalente, un 34,3% menos que Deepseek-R1 70B. Esta configuración representa una mejora de 7,6 puntos porcentuales en precisión comparado con su versión sin razonamiento.
La investigación también reveló variaciones significativas según el tema analizado. Los modelos obtuvieron mejores resultados en Historia Universal de Secundaria, con un promedio de 76,3% de respuestas correctas, mientras que el Álgebra Abstracta presentó el mayor desafío con solo 51,4% de aciertos. Los dominios simbólicos y abstractos demandaron sistemáticamente más computación y produjeron menor precisión.
Un factor clave en el consumo energético es la generación de tokens, las unidades básicas de texto que procesan los modelos. Los modelos con razonamiento habilitado requirieron un promedio de 543,5 tokens de "pensamiento" adicionales por pregunta en el modo de opción múltiple, mientras que en respuesta libre este número aumentó a 859,2 tokens promedio.
El estudio documenta casos extremos de verbosidad en modelos de razonamiento. El Deepseek-R1 7B generó hasta 14.187 tokens en una sola pregunta matemática, mientras que modelos estándar produjeron respuestas de un solo token. El record lo estableció Cogito 8B con una respuesta de 37.575 tokens para una pregunta de Álgebra Abstracta.
Los investigadores encontraron que las capacidades de razonamiento aumentaron las emisiones entre 4 y 6 veces comparado con modelos estándar del mismo tamaño. Por ejemplo, Cogito 8B en modo razonamiento emitió 371,87 gramos frente a solo 56,30 gramos en su configuración predeterminada para el mismo conjunto de preguntas.
El análisis por escala de modelos muestra que los sistemas más grandes (70-72 mil millones de parámetros) consumieron uniformemente entre 100-700 gramos de CO₂ equivalente, mientras que los modelos compactos de 7-8 mil millones de parámetros se mantuvieron por debajo de 180 gramos en la fase de opción múltiple.
Los hallazgos destacan la necesidad urgente de desarrollar estrategias de razonamiento más eficientes en futuros modelos de IA, especialmente considerando que se estima que los modelos generativos consumen anualmente 29,3 TWh, comparable al consumo energético total de Irlanda.
Continúa informándote
La NASA prepara dos lanzamientos de globos científicos desde la Antártida para estudiar fenómenos extremos del universo
La NASA realizará dos lanzamientos de globos de gran altitud desde la Antártida para investigar neutrinos de ultraalta energía y posibles señales de materia oscura
El genoma del calamar vampiro ilumina cómo se separaron pulpos, calamares y sepias hace 300 millones de años
Un nuevo análisis revela que el calamar vampiro conserva rasgos genéticos ancestrales que ayudan a entender la separación evolutiva de pulpos, calamares y sepias
Cómo funciona de verdad un láser y por qué no se ve “el rayo” en el aire
Los láseres producen un tipo de luz extremadamente ordenada y concentrada, pero su rayo casi nunca se ve en el aire. Aquí te explicamos cómo funciona realmente un láser y por qué el haz visible es solo una ilusión del ambiente
Cómo los sonidos de las palabras influyen en lo atractivas y memorables que nos parecen
Un estudio revela que ciertos sonidos hacen que las palabras nos parezcan más atractivas y fáciles de recordar, mostrando cómo la fonética influye en la emoción y la memoria
Así es el nuevo modelo 3D que permite explorar las estatuas de la Isla de Pascua desde casa
Un modelo 3D de alta resolución de la cantera de Rano Raraku permite explorar desde casa el paisaje donde se tallaron los moáis y revela cómo trabajaban distintos talleres en la Isla de Pascua
El suroeste de EE. UU. fue más polvoriento entre glaciaciones: un registro de 230.000 años lo demuestra
Un registro de 230.000 años del lago Stoneman revela que el suroeste de EE. UU. emitió más polvo entre glaciaciones que durante ellas, desafiando patrones globales