Объяснение приобретения NVIDIA Groq: Почему Дженсен Хуанг сравнивает его со сделкой Mellanox

Когда Дженсен Хуанг проводит параллель между новой сделкой и приобретением Mellanox, индустрия обращает внимание. Во время отчета о доходах NVIDIA за 4-й квартал 2026 финансового года генеральный директор раскрыл, что технология Groq расширит архитектуру NVIDIA в качестве ускорителя — отражая то, как Mellanox когда-то трансформировал стратегию компании в области центров обработки данных. Wccftech

Это заявление стало первым конкретным намеком на то, как NVIDIA намерена использовать технологию, которую она получила через неэксклюзивное лицензионное соглашение стоимостью до 20 миллиардов долларов — крупнейшую инвестицию в истории NVIDIA. Wccftech

Что на самом деле означает сравнение с Mellanox

Mellanox заложил основу для InfiniBand и в конечном итоге обеспечил то, что NVIDIA называет "экстремальным совместным проектированием", подход, при котором вычисления и сети разрабатываются как единая система. Wccftech Это приобретение 2019 года превратило NVIDIA из поставщика GPU в полнофункционального провайдера платформ для центров обработки данных.

Ожидается, что Groq сделает то же самое для декодирования вывода — решив проблему задержки, которую NVIDIA не полностью решила даже с архитектурами Hopper и Blackwell. igor´sLAB Хотя NVIDIA доминирует в обучении моделей ИИ, рост агентных рабочих нагрузок ИИ сместил узкое место на декодирование — фазу генерации токенов, где время отклика имеет наибольшее значение.

Почему низколатентное декодирование важно для агентного ИИ

В многоагентных рабочих нагрузках декодирование позволяет агентам ИИ выполнять сложные шаги рассуждения за секунды, что критически важно, поскольку индустрия движется к роям взаимозависимых агентов ИИ. Wccftech Обучение требует чистой пропускной способности; вывод требует скорости и предсказуемости.

Процессоры обработки языка Groq используют детерминированное выполнение с большой встроенной SRAM, устраняя узкие места пропускной способности памяти, характерные для вывода на основе GPU. ObjectWire Демонстрации показали, что LPU генерируют 10 000 токенов рассуждения примерно за две секунды — уровень производительности декодирования, с которым традиционные архитектуры GPU с трудом справляются.

SRAM обеспечивает десятки терабайт в секунду внутренней пропускной способности, в то время как планирование во время компиляции устраняет временные вариации между ядрами, обеспечивая почти идеальную утилизацию конвейера. Wccftech

Как NVIDIA может интегрировать технологию LPU от Groq

В индустрии обсуждаются два пути интеграции.

Первый - это гибридный подход масштаба стойки. По данным GF Securities, NVIDIA может представить "стойку LPX" на GTC 2026 с до 256 блоков LPU в одной стойке. Wccftech В рамках этой модели связь LPU-LPU будет опираться на нативный плезиосинхронный протокол чип-чип, в то время как соединения LPU-GPU могут использовать NVLink Fusion для разгрузки KV кэша во время стадии предварительного заполнения. Это создает четкое функциональное разделение: GPU обрабатывают внимание и предварительное заполнение, LPU обрабатывают декодирование.

Второй, более амбициозный путь включает прямое встраивание технологии LPU в будущие архитектуры GPU, такие как Feynman, через гибридное соединение кристаллов. igor´sLAB Однако этот подход вводит значительные проблемы упаковки, выхода годных и тепловые проблемы, делая интеграцию на уровне стойки более вероятным краткосрочным вариантом.

Общая картина: Модульная экосистема ИИ NVIDIA

Хуанг раскрыл во время того же отчета о доходах, что рост вычислений NVIDIA и рост доходов теперь отслеживаются в соотношении 1:1, что обусловлено ускоряющейся эволюцией уровня приложений ИИ. Wccftech Это сигнализирует о фундаментальном сдвиге от обучения моделей к массовому развертыванию — и вывод - это место, где лежит следующая волна ценности.

С Rubin CPX NVIDIA уже решила стадию предварительного заполнения через двигатели ускорения внимания и вычисления NVFP4. Wccftech Технология LPU от Groq предназначена для закрытия оставшегося разрыва в декодировании.

Результатом является не монолитный продукт, а модульная экосистема: Mellanox для сетей, GPU для обучения и предварительного заполнения, LPU для критического по задержкам декодирования. igor´sLAB Это архитектурная консолидация — и тот, кто контролирует декодирование, контролирует агентные рабочие нагрузки, которые все больше определяют, где генерируются доходы от ИИ.

Чего ожидать на GTC 2026

Ожидается, что NVIDIA официально представит свои планы по интеграции LPU на этогодней конференции GTC. WccftechПримет ли это форму стойки вывода LPX, более тесной связи GPU-LPU или чего-то совершенно нового, остается увидеть.

Стратегическое направление уже ясно. Ценник в 20 миллиардов долларов на Groq подтверждает растущий консенсус о том, что специализированные ускорители вывода представляют отдельную и быстро расширяющуюся категорию рынка EE Times — и NVIDIA намерена владеть им изнутри.

Что на самом деле означает сравнение с Mellanox

Почему низколатентное декодирование важно для агентного ИИ

Как NVIDIA может интегрировать технологию LPU от Groq

Общая картина: Модульная экосистема ИИ NVIDIA

Чего ожидать на GTC 2026

Будьте впереди рынка