Nvidia ha lanzado su nueva familia de modelos abiertos Llama Nemotron que, con capacidades de razonamiento, está diseñada para brindar a desarrolladores y empresas una base para crear agentes de IA avanzados que puedan trabajar de forma independiente o en equipos para resolver tareas complejas.
La tecnológica dio a conocer su nueva familia de modelos de IA, basados en los modelos Llama, en el marco del evento tecnológico CES 2025, donde detalló que se han diseñado como modelos abiertos LLM que proporcionan una “alta precisión en una amplia gama de tareas de IA”.
Ahora, en el marco de la conferencia GTC 2025, celebrada este martes, Nvidia ha lanzado oficialmente esta familia de modelos Llama Nemotron, que ha sido mejorada durante el post-entrenamiento para optimizar sus resultados a la hora de ejecutar tareas en matemáticas, codificación, razonamiento y en la toma de decisiones complejas.
Así, tal y como ha explicado en un comunicado en su blog, este proceso de refinamiento ha conseguido aumentar la precisión de los modelos hasta en un 20 por ciento, en comparación con el modelo base, y optimizar la velocidad de inferencia hasta cinco veces, en comparación con otros modelos de razonamiento abierto del sector.
De esta forma, los modelos ofrecen capacidades de razonamiento de IA bajo demanda y, con las mejoras en el rendimiento de la inferencia, permiten gestionar tareas de razonamiento más complejas, además de reducir los costes operativos de las empresas.
Tal y como ha detallado el fundador y director ejecutivo de Nvidia, Jensen Huang, la familia de modelos Llama Nemotron está disponible como microservicios Nvidia NIM en los tamaños Nano, Super y Ultra, cada uno optimizado para diferentes necesidades de implementación.
En el caso del modelo Nano, ofrece una alta precisión en PC y dispositivos de borde; el modelo Super, por su parte, ofrece “la mejor precisión y el mayor rendimiento en una sola GPU”. Finalmente, el modelo Ultra, proporciona “la máxima precisión agente” en servidores de múltiples GPU.
Con todo ello, la tecnológica ha señalado que los desarrolladores ya pueden implementar los modelos de razonamiento Llama Nemotron con las nuevas herramientas y el software de IA agéntica de Nvidia para agilizar la adopción de razonamiento avanzado en sistemas de IA colaborativos, todo ello a través de la plataforma Nvidia AI Enterprise.
En concreto, los modelos Nano y Super, así como los microservicios NIM, están disponibles como interfaz de programación de aplicaciones (PAI) en el servicio build.nvidia.com y en Hugging Face. Por su parte, las empresas pueden ejecutar los microservicios Llama Nemotron NIM con Nvidia AI Enterprise en centros de datos acelerados y en infraestructuras en la nube.
En este marco, Nvidia ha señalado que algunas de las principales compañías que desarrollan IA de agentes, como es el caso de Accenture, CrowdStrike, Deloitte, Microsoft y ServiceNow, ya están colaborando con Nvidia en la creación de sus modelos de razonamiento y ‘software’.
Además de todo ello, otra de las novedades anunciadas en el evento GTC ha sido el software de inferencia gratuito de código abierto Nvidia Dynamo, ideado para acelerar y escalar los modelos de razonamiento de IA en fábricas de IA, obteniendo la mayor eficiencia a un menor coste.
La compañía ha puesto sobre la mesa la importancia de coordinar de manera eficiente las solicitudes de inferencia de IA a la hora de utilizar una gran flota de GPU, de cara a garantizar que las fábricas de IA funcionen al menor coste posible. En este sentido, con Nvidia Dynamo, sucesor de Nvidia Triton Inference Server, la compañía ofrece una opción para maximizar la generación de ingresos por tokens para las fábricas de IA que implementan modelos de razonamiento.
En concreto, esto se debe a que acelera la comunicación de inferencia entre las GPU y utiliza un servicio desagregado para separar las fases de procesamiento y generación de grandes modelos de lenguaje (LLM) en diferentes GPU. Con ello, consigue optimizar cada fase de forma independiente, garantizando el máximo aprovechamiento de los recursos de la GPU.
Como resultado, Nvidia asegura que, con la misma cantidad de GPU, Dynamo “duplica el rendimiento y los ingresos de las fábricas de IA” que utilizan los modelos Llama en la plataforma Nvidia Hopper actual.
Igualmente, la compañía ha señalado que este enfoque es “ideal” para modelos de razonamiento como la nueva familia Llama Nemotron, ya que la gestión desagregada permite ajustar y asignar recursos a cada fase de forma independiente, lo que mejora el rendimiento y ofrece respuestas más rápidas para los usuarios.
Así, Nvidia Dynamo es de código abierto y compatible con PyTorch, SGLang, Nvidia TensorRT-LLM y vLLM, lo que permite a empresas, startups e investigadores desarrollar y optimizar la implementación de modelos de IA mediante inferencia desagregada.
Con todo ello, estará disponible en los microservicios NVIDIA NIM y será compatible en una futura versión con la plataforma de software NVIDIA AI Enterprise con seguridad, soporte y estabilidad de nivel de producción.
LA NACION
Los comentarios están cerrados.