Anthropic lanza Claude Sonnet 4.6 con mejoras en codificación y menos alucinaciones
Claude Sonnet 4.6 llega en un momento en que la competencia en inteligencia artificial ya no se mide solo por récords técnicos, sino por utilidad real en entornos productivos. La nueva versión de Anthropic apunta a ese terreno práctico: menos fricción, mayor coherencia y un rendimiento que busca consolidarse en el día a día de desarrolladores y empresas.
Autor - Aldo Venuta Rodríguez
5 min lectura
Anthropic ha movido una pieza clave en la competencia de modelos de inteligencia artificial. Con Claude Sonnet 4.6, la compañía no solo mejora su modelo intermedio: eleva su estándar hasta acercarlo al territorio que antes ocupaban los modelos de gama alta. El resultado no es simplemente técnico. Es estratégico. Prestaciones que antes exigían un modelo tipo Opus ahora están disponibles a coste Sonnet, y eso cambia el equilibrio entre rendimiento y adopción.
El lanzamiento se inscribe en un ciclo de actualización de cuatro meses que marca el ritmo del sector. La presión es clara: mejorar codificación, seguimiento de instrucciones y reducción de alucinaciones sin disparar los costes. En ese contexto, Sonnet 4.6 no compite solo por potencia, sino por eficiencia práctica.
Frente a Sonnet 4.5, la versión 4.6 introduce mejoras en programación, uso de computadoras, razonamiento con grandes volúmenes de información y planificación de tareas complejas. En pruebas internas, los usuarios prefirieron Sonnet 4.6 frente a 4.5 en torno al 70 % del tiempo en entornos de desarrollo. Incluso fue elegido frente a Opus 4.5 en un 59 % de los casos. Eso no significa que sea más potente en términos absolutos, pero sí que resulta más consistente y menos frustrante en tareas reales.
Los desarrolladores destacaron menos sobreingeniería, menos falsas afirmaciones de éxito y menos alucinaciones. En términos productivos, eso reduce iteraciones y retrabajo. En entornos empresariales, donde el coste del error puede superar al de la ejecución, esa fiabilidad tiene impacto económico directo.
Uno de los elementos más visibles es la ventana de contexto de un millón de tokens en versión beta. La ventana de contexto es la cantidad de información que el modelo puede leer y tener en cuenta en una sola solicitud. Con ese tamaño, Sonnet 4.6 puede procesar bases de código completas, contratos extensos o múltiples artículos de investigación de una sola vez.
Pero el punto no es solo el volumen, sino la capacidad de razonar dentro de él. Si un modelo puede mantener coherencia sobre un proyecto completo sin fragmentarlo en múltiples consultas, se reduce la pérdida de contexto y los errores acumulativos. Eso cambia la forma en que se gestionan proyectos largos, revisiones jurídicas o análisis técnicos complejos. No es una mejora cosmética; es una ampliación del alcance operativo.
Otro eje central es el uso de computadoras. Muchas organizaciones trabajan con software que no dispone de API modernas. Automatizar esos sistemas suele requerir conectores personalizados. Un modelo que puede interactuar con la pantalla como lo haría una persona —haciendo clic, escribiendo, navegando— altera esa ecuación.
En el benchmark OSWorld, que mide precisamente esa capacidad en entornos reales como navegadores o editores de código, Sonnet 4.6 muestra avances frente a versiones anteriores. Aunque aún está por detrás de usuarios humanos expertos, el progreso sostenido indica que la automatización puede extenderse a sistemas heredados sin rediseñar toda la infraestructura tecnológica. Eso tiene implicaciones estructurales para empresas que dependen de herramientas antiguas pero críticas.
En otras pruebas, el modelo también mejora. SWE-Bench evalúa rendimiento en ingeniería de software. ARC-AGI-2 intenta medir habilidades más cercanas al razonamiento general humano, planteando problemas nuevos que no se resuelven por simple memorización. En esta última, Sonnet 4.6 obtiene un 60,4 %. Superar el 60 % lo sitúa por encima de la mayoría de modelos comparables, aunque aún por detrás de Claude Opus 4.6, Gemini 3 Deep Think y una versión mejorada de GPT 5.2.
Lo relevante no es que lidere, sino que se acerque. Cuando un modelo intermedio logra resultados que hace poco eran exclusivos de los más costosos, la brecha entre categorías se estrecha. Esa convergencia presiona a todo el mercado.
El precio se mantiene igual que en Sonnet 4.5, desde 3 y 15 dólares por millón de tokens, y además pasa a ser el modelo predeterminado en los planes Free y Pro. Esa decisión amplía de inmediato el acceso a capacidades avanzadas. No es un detalle menor: convierte el modelo intermedio en la puerta de entrada masiva a un rendimiento cercano a la gama alta.
En una carrera donde Gemini 3 Deep Think, GPT 5.2 y Opus 4.6 compiten por liderazgo técnico, Sonnet 4.6 introduce otra variable: el equilibrio entre potencia y coste. La frontera entre modelos premium y modelos intermedios empieza a difuminarse.
El movimiento de Anthropic refleja una tensión estructural en el sector. La competencia ya no consiste solo en construir el modelo más potente, sino en hacer que ese nivel de rendimiento sea económicamente viable y ampliamente adoptado. Si la gama media alcanza prestaciones que antes requerían inversión de élite, la categoría misma deja de tener el mismo significado.
Claude Sonnet 4.6 no redefine el mercado por una sola cifra, sino por lo que simboliza: la convergencia progresiva entre alto rendimiento y accesibilidad. En esa convergencia se juega la próxima fase de la competencia en inteligencia artificial.
Fuente: Anthropic
Continúa informándote
Las empresas exigen resultados financieros reales a la inteligencia artificial
La industria endurece la evaluación del retorno de inversión en inteligencia artificial y exige impacto real en ingresos, costes y rentabilidad en 2026
GLM-5 amplía las capacidades de los modelos abiertos hacia sistemas completos
GLM-5 impulsa la transición hacia la ingeniería agencial en IA, donde los modelos de código abierto ya no solo generan código, sino que planifican y ejecutan sistemas completos
India busca redefinir su papel en la gobernanza global de la inteligencia artificial
India reúne a líderes de OpenAI, Google y otras tecnológicas en una cumbre que busca posicionar al país como actor clave en la adopción y gobernanza global de la inteligencia artificial
Oleada de tráfico bot desde Asia distorsiona métricas y pone en riesgo la monetización web
El aumento de tráfico bot desde China y Singapur altera métricas, encarece costes y pone en riesgo la monetización web ligada a Google AdSense.
OpenAI retira el modelo GPT-4o tras críticas por su comportamiento y controversias recientes
OpenAI retira GPT-4o tras críticas sobre su comportamiento y reorganiza su catálogo de modelos de inteligencia artificial dentro de la evolución de ChatGPT
Meta, TikTok y otras plataformas serán evaluadas por su impacto en la salud adolescente
Meta, TikTok y YouTube participarán en un estándar independiente que evaluará sus políticas de protección adolescente y bienestar digital tras años de críticas