NVIDIA Nemotron 3 Super выходит на Together AI с контекстным окном в 1 млн токенов
Джесси А Эллис 21:43, 11 марта 2026 г.
Модель NVIDIA Nemotron 3 Super с 120 млрд параметров теперь доступна на Together AI, обеспечивая 5-кратный прирост пропускной способности для мультиагентных ИИ-систем и корпоративных рабочих нагрузок.
Together AI объявила о доступности NVIDIA Nemotron 3 Super на своей платформе Dedicated Inference 11 марта, предоставив корпоративным разработчикам доступ к модели рассуждений с 120 миллиардами параметров, оптимизированной для мультиагентных ИИ-систем. Акции NVIDIA торговались по 186,03 $, выросли на 0,66% на фоне новости.
Время имеет значение. Nemotron 3 Super представляет собой вторую модель с открытыми весами NVIDIA в семействе Nemotron 3 после декабрьского выпуска Nano и нацелена на конкретную проблему в производственном ИИ: вычислительные затраты на запуск сложных агентных рабочих процессов в масштабе.
Почему архитектура имеет значение
Вот что отличает эту модель от типичной гонки за количеством параметров. Несмотря на 120 млрд общих параметров, только 12 млрд активны во время вывода. Гибридный дизайн — сочетающий внимание Transformer с последовательной обработкой Mamba — обеспечивает, по заявлению NVIDIA, в 5 раз более высокую пропускную способность, чем предыдущая модель Nemotron Super.
Контекстное окно в 1 миллион токенов решает то, что разработчики называют "взрывом контекста". Мультиагентные приложения могут потреблять в 15 раз больше токенов, чем стандартные чат-взаимодействия, и большинство моделей не справляются с такой нагрузкой. Nemotron 3 Super обрабатывает целые кодовые базы, объемные хранилища документов и расширенные траектории агентов без падения производительности.
Обучение Multi-Token Prediction позволяет модели генерировать несколько токенов одновременно за один проход вперед. Для генерации кода или структурированных выходных данных NVIDIA сообщает о 50% более быстрой генерации токенов по сравнению с ведущими открытыми моделями.
Стратегия Together AI
Запуск гибридной модели 120B с контекстом в миллион токенов обычно требует распределенных вычислений на нескольких узлах. Предложение Dedicated Inference от Together AI упрощает развертывание на одиночных GPU NVIDIA H200 или H100 — без необходимости подготовки GPU со стороны разработчика.
Платформа обещает SLA с 99,9% времени безотказной работы и соответствие SOC 2, позиционируя это как готовую для предприятий инфраструктуру, а не экспериментирование исследовательского уровня.
Производственные приложения
Целевые случаи использования включают помощников разработчиков, анализирующих кодовые базы, корпоративные системы обработки документов, сортировку уязвимостей кибербезопасности и оркестрационные слои, маршрутизирующие задачи между специализированными агентами.
Подход с открытыми весами — выпущенный под лицензией NVIDIA Nemotron Open Model License — позволяет командам точно настраивать для конкретных сред и развертывать на собственных серверах, что является критическим соображением для предприятий с требованиями к суверенитету данных.
NVIDIA также анонсировала NemoClaw 10 марта, платформу с открытым исходным кодом для ИИ-агентов, которая может дополнить развертывания Nemotron 3 Super. Разработчики могут получить доступ к модели через выделенный уровень вывода Together AI немедленно.
Источник изображения: Shutterstock- nvidia
- инфраструктура ИИ
- nemotron
- together ai
- корпоративный ИИ


