Tecnología
Publicado:

ChatGPT Images 2.0 logra lo que antes fallaba: escribir texto legible en imágenes

El nuevo modelo Images 2.0 de ChatGPT mejora de forma notable la generación de texto dentro de imágenes, un fallo histórico que limitaba su uso real en diseño y contenido.

3 min lectura
Logo de ChatGPT con fondo verde y pinceladas artísticas minimalistas

Durante años, una de las formas más rápidas de detectar una imagen generada por inteligencia artificial era fijarse en el texto. Carteles, menús o interfaces aparecían con palabras deformadas o directamente inventadas, lo que hacía evidente el origen artificial de la imagen. Esa limitación no era menor: impedía usar estas herramientas en contextos reales.

El salto que plantea Images 2.0 apunta precisamente a ese punto débil. En pruebas recientes, el modelo es capaz de generar elementos como menús completos sin errores visibles, algo que hace apenas dos años resultaba inviable. No es solo una mejora estética, sino funcional: el contenido ya puede integrarse en entornos reales sin levantar sospechas.

La explicación de ese cambio está en cómo evolucionan estos sistemas. Tradicionalmente, los generadores de imágenes se basaban en modelos de difusión, que reconstruyen imágenes a partir de ruido. En ese proceso, el texto quedaba relegado a un detalle menor dentro del conjunto visual, lo que explicaba su baja precisión.

Frente a ese enfoque, la investigación ha avanzado hacia modelos más cercanos al comportamiento de los sistemas de lenguaje, capaces de predecir y organizar mejor los elementos dentro de una imagen. Aunque OpenAI no ha detallado qué arquitectura concreta utiliza Images 2.0, el resultado sugiere un cambio en cómo se prioriza la coherencia interna de la imagen, incluido el texto.

Más allá de escribir correctamente, el modelo incorpora lo que la compañía describe como “capacidades de pensamiento”. Esto se traduce en funciones prácticas: puede generar múltiples versiones a partir de una misma indicación, adaptar formatos para distintos usos y verificar sus propios resultados. En términos operativos, acerca la herramienta a flujos de trabajo reales de diseño y marketing.

Otro punto relevante es su capacidad para manejar texto en idiomas no latinos, como japonés, coreano, hindi o bengalí. Esto amplía el alcance global de la herramienta, aunque su conocimiento está limitado a diciembre de 2025, lo que puede afectar a referencias recientes o contextos actualizados.

A nivel técnico, OpenAI habla de una mayor fidelidad en la representación de detalles que antes solían fallar: tipografías pequeñas, iconos, elementos de interfaz o composiciones complejas. Todo ello con resoluciones de hasta 2K, lo que refuerza su utilidad en aplicaciones más exigentes.

Ese avance tiene un coste en tiempo. Generar imágenes complejas no es instantáneo como una consulta de texto, pero sigue siendo lo suficientemente rápido como para producir, por ejemplo, tiras cómicas completas en cuestión de minutos. El equilibrio entre calidad y velocidad parece inclinarse hacia usos más profesionales.

La disponibilidad también marca una diferencia. Todos los usuarios de ChatGPT y Codex pueden acceder a Images 2.0, aunque las funciones más avanzadas quedan reservadas para suscriptores de pago. Además, la API gpt-image-2 introduce un modelo de precios ligado a la calidad y resolución, lo que apunta a una integración directa en productos y servicios.

Lo que está cambiando no es solo la calidad visual de estas imágenes, sino su utilidad real. Cuando el texto deja de ser un punto débil, la generación de imágenes pasa de ser una herramienta experimental a un recurso operativo. La frontera entre contenido generado y contenido producido de forma tradicional se vuelve, en la práctica, mucho más difícil de trazar.

Fuentes

1
TechCrunch

techcrunch.com/

Compartir artículo

Continúa informándote