Modelos de IA con razonamiento mejoran la precisión pero incrementan emisiones de CO₂ significativamente

Estudio evalúa 14 modelos de lenguaje grandes y revela compensaciones entre rendimiento y sostenibilidad ambiental

3 min lectura

Autor - Aldo Venuta Rodríguez

Inteligencia artificial generando emisiones de CO2
Créditos: Iceebook

Una nueva investigación del Centro de Ciencias Digitales e Inteligencia Artificial de Múnich revela que los modelos de inteligencia artificial con capacidades de razonamiento mejoran significativamente la precisión de sus respuestas, pero a costa de generar emisiones de CO₂ sustancialmente mayores. El estudio analizó 14 modelos de lenguaje grandes con parámetros que van desde 7 mil millones hasta 72 mil millones.

Los investigadores evaluaron modelos como Llama3.1 de Meta, Qwen de Alibaba y Deepseek R1, sometiendo cada uno a 500 preguntas de opción múltiple y 500 de respuesta libre del conjunto de datos Massive Multitask Language Understanding (MMLU). Las emisiones se midieron utilizando una GPU NVIDIA A100 y se convirtieron aplicando un factor de emisión de 480 gramos de CO₂ por kilovatio hora.

Los resultados muestran diferencias dramáticas en el consumo energético. El modelo más eficiente, Qwen 7B, generó apenas 27,7 gramos de CO₂ equivalente para procesar las 1.000 preguntas, pero alcanzó solo un 32,9% de precisión. En contraste, el modelo Deepseek-R1 70B con razonamiento habilitado emitió 2.042,4 gramos de CO₂ equivalente, logrando una precisión del 78,9%.

El modelo Cogito 70B con razonamiento demostró el mejor equilibrio entre rendimiento y eficiencia ambiental, alcanzando la máxima precisión del 84,9% mientras emitía 1.341,1 gramos de CO₂ equivalente, un 34,3% menos que Deepseek-R1 70B. Esta configuración representa una mejora de 7,6 puntos porcentuales en precisión comparado con su versión sin razonamiento.

La investigación también reveló variaciones significativas según el tema analizado. Los modelos obtuvieron mejores resultados en Historia Universal de Secundaria, con un promedio de 76,3% de respuestas correctas, mientras que el Álgebra Abstracta presentó el mayor desafío con solo 51,4% de aciertos. Los dominios simbólicos y abstractos demandaron sistemáticamente más computación y produjeron menor precisión.

Un factor clave en el consumo energético es la generación de tokens, las unidades básicas de texto que procesan los modelos. Los modelos con razonamiento habilitado requirieron un promedio de 543,5 tokens de "pensamiento" adicionales por pregunta en el modo de opción múltiple, mientras que en respuesta libre este número aumentó a 859,2 tokens promedio.

El estudio documenta casos extremos de verbosidad en modelos de razonamiento. El Deepseek-R1 7B generó hasta 14.187 tokens en una sola pregunta matemática, mientras que modelos estándar produjeron respuestas de un solo token. El record lo estableció Cogito 8B con una respuesta de 37.575 tokens para una pregunta de Álgebra Abstracta.

Los investigadores encontraron que las capacidades de razonamiento aumentaron las emisiones entre 4 y 6 veces comparado con modelos estándar del mismo tamaño. Por ejemplo, Cogito 8B en modo razonamiento emitió 371,87 gramos frente a solo 56,30 gramos en su configuración predeterminada para el mismo conjunto de preguntas.

El análisis por escala de modelos muestra que los sistemas más grandes (70-72 mil millones de parámetros) consumieron uniformemente entre 100-700 gramos de CO₂ equivalente, mientras que los modelos compactos de 7-8 mil millones de parámetros se mantuvieron por debajo de 180 gramos en la fase de opción múltiple.

Los hallazgos destacan la necesidad urgente de desarrollar estrategias de razonamiento más eficientes en futuros modelos de IA, especialmente considerando que se estima que los modelos generativos consumen anualmente 29,3 TWh, comparable al consumo energético total de Irlanda.

Fuente: Frontiers in Artificial Intelligence

No hemos podido validar su suscripción.
Se ha realizado su suscripción.

Recibe el boletín de Iceebook

Las noticias más importantes del planeta, ciencia, espacio y tecnología, directamente en tu bandeja de entrada. Sin ruido, solo lo esencial.

Preguntas frecuentes

💬 Los modelos con razonamiento generan entre 4 y 6 veces más emisiones de CO₂ que sus versiones estándar del mismo tamaño debido a la generación adicional de tokens de "pensamiento".
💬 El modelo menos eficiente (Deepseek-R1 70B) emitió 2.042,4 gramos de CO₂ frente a los 27,7 gramos del más eficiente (Qwen 7B), una diferencia de 74 veces.
💬 Los dominios simbólicos y abstractos como Álgebra Abstracta demandan más computación y recursos, alcanzando solo 51,4% de precisión promedio comparado con 76,3% en Historia Universal.
💬 Sí, el modelo Cogito 70B con razonamiento logró la máxima precisión (84,9%) mientras emitía 34,3% menos CO₂ que otros modelos de razonamiento de tamaño similar.

Continúa informándote

Jensen Huang, CEO de Nvidia
Tecnología

Robots humanoides de Nvidia y Foxconn llegarán a la nueva fábrica de servidores de IA en Houston

La planta de Houston usará robots humanoides en la línea de servidores de IA, reforzando la apuesta tecnológica de Nvidia y Foxconn en Estados Unidos

Vista aérea de la fábrica LEA en Vitoria
El Mundo

La ciudad de Vitoria en alerta tras un incendio y explosiones en la emblemática fábrica LEA

Un incendio con llamas y explosiones en la histórica fábrica LEA de Vitoria provoca una columna de humo visible en toda la ciudad, moviliza a los servicios de emergencia y activa el plan de evacuación

Incendio forestal activo junto a un río
Planeta Tierra

Descubren cómo la materia orgánica de los incendios forestales altera la calidad del agua en ríos y lagos

Un estudio revela el impacto oculto de los incendios forestales sobre los ecosistemas acuáticos, evidenciando riesgos para la biodiversidad y la salud pública

Estrellas
Espacio

Un nuevo avance revela cómo se formaron y crecieron las primeras estrellas que dieron luz al universo primitivo

Un estudio científico revela cómo la distribución de masas de las primeras estrellas cambió la historia cósmica y permitió la formación de galaxias y elementos complejos

Smartphone con la pantalla encendida mostrando el logo de X
El Mundo

Bruselas examina los cambios en la organización interna de X meses después del millonario acuerdo con xAI

La Unión Europea investiga la nueva estructura corporativa de X tras la adquisición por xAI, en un contexto de creciente escrutinio regulatorio y posibles sanciones

Columna de humo denso ascendiendo desde una quema controlada en campo rural
Planeta Tierra

Quemas controladas generan hasta 25% de contaminación atmosférica en regiones vulnerables

Estudio en el sureste de Estados Unidos revela que el cambio climático intensificará los impactos del humo en comunidades minoritarias y de bajos ingresos

Chimeneas industriales emitiendo nubes de humo
Planeta Tierra

La compensación de emisiones de combustibles fósiles enfrenta límites ecológicos y financieros insuperables

Estudio revela que forestación para compensar reservas de las 200 mayores petroleras requeriría superficie equivalente a América del Norte

Glaciar
Ciencia

Investigadores crean sistema para almacenar mensajes en burbujas de hielo

Científicos chinos desarrollan técnica que manipula la formación de burbujas durante la congelación para codificar información usando códigos Morse, binarios y ternarios

Huella humana en América del Norte
Ciencia

Confirman la presencia humana de 23,000 años de antigüedad en América del Norte durante la última glaciación

Nuevo estudio geocronológico independiente respalda la controversia datación de huellas humanas en White Sands mediante análisis estratigráfico del paleolago Otero

Símbolo H₂
Ciencia

Científicos logran producir hidrógeno verde con enzimas artificiales más pequeñas y eficientes

Investigadores alemanes simplifican biocatalizadores naturales transfiriendo centros catalíticos a proteínas transportadoras de electrones