El nuevo modelo puede trabajar con texto, imágenes, audio y video, aunque su respuesta final se genera en formato de texto. La diferencia está en lo que entiende antes de responder: documentos extensos, grabaciones, capturas de pantalla, conversaciones o secuencias audiovisuales.
La propuesta apunta sobre todo al uso empresarial. En muchas compañías, los datos no llegan ordenados en un solo formato. Hay correos, informes, reuniones grabadas, pantallas, videos técnicos y archivos internos. Un sistema capaz de unir todo eso puede reducir la dependencia de varias herramientas distintas.
Nemotron 3 Nano Omni está basado en una arquitectura híbrida de mezcla de expertos con 30.000 millones de parámetros. Pero no activa todo el modelo en cada consulta. Según Nvidia, utiliza alrededor de 3.000 millones de parámetros por inferencia, una forma de mantener capacidad de razonamiento sin elevar tanto el coste computacional.
El modelo incorpora componentes especializados para cada tipo de entrada. Entre ellos está Parakeet, usado para audio, y C-RADIOv4-H, orientado a visión. En la práctica, esto le permite analizar señales distintas dentro de una misma arquitectura, sin obligar a las empresas a montar sistemas separados para cada tarea.
Nvidia asegura que el rendimiento puede ser hasta nueve veces superior al de otros modelos omnidireccionales abiertos similares. En tareas de razonamiento sobre video, la compañía afirma que logra aproximadamente tres veces más rendimiento usando 2,75 veces menos potencia de cálculo.
Otro punto fuerte es su ventana de contexto de 256.000 tokens. Esto le permite manejar materiales largos, algo importante cuando se trabaja con documentos complejos, transcripciones extensas o registros técnicos donde la información útil puede estar repartida en muchas páginas o minutos de grabación.
Varias empresas ya aparecen vinculadas al modelo. Foxconn, Palantir y H Company lo han adoptado, mientras que Dell, Oracle e Infosys lo están evaluando. En el caso de H Company, su director ejecutivo, Gautier Cloix, destacó que el modelo permite a sus agentes analizar grabaciones de pantalla en Full HD con mucha más rapidez.
Ese ejemplo muestra bien el tipo de uso que Nvidia tiene en mente. No se trata solo de una IA que responde preguntas, sino de agentes capaces de observar una pantalla, revisar documentos, escuchar audio o interpretar video antes de generar una respuesta útil para una tarea concreta.
Nemotron 3 Nano Omni también llega con pesos, conjuntos de datos y recetas de entrenamiento abiertos. Esto permite que los desarrolladores lo adapten a necesidades específicas, desde análisis documental hasta automatización de procesos internos o revisión de contenido multimedia.
El modelo forma parte de la familia Nemotron 3, donde también se encuentran las versiones Super y Ultra, pensadas para cargas de trabajo más exigentes. Nvidia afirma que esta línea ya superó los 50 millones de descargas en el último año, una señal de que la compañía quiere competir no solo con chips, sino también con modelos abiertos para la inteligencia artificial empresarial.