Объединяя преимущества моделей пространства состояний (SSMs) с механизмами внимания, SAMBA представляет гибридную нейронную архитектуру, которая обеспечивает эффективное, масштабируемое моделирование языка с практически бесконечной длиной контекста. SAMBA превосходит как чисто основанные на внимании, так и основанные на SSM модели по различным показателям рассуждения, понимания и кодирования при обучении на SlimPajama с согласованными настройками. Модель обрабатывает последовательности до 256K токенов с минимальной тонкой настройкой, достигая исключительной скорости и способности к экстраполяции.Объединяя преимущества моделей пространства состояний (SSMs) с механизмами внимания, SAMBA представляет гибридную нейронную архитектуру, которая обеспечивает эффективное, масштабируемое моделирование языка с практически бесконечной длиной контекста. SAMBA превосходит как чисто основанные на внимании, так и основанные на SSM модели по различным показателям рассуждения, понимания и кодирования при обучении на SlimPajama с согласованными настройками. Модель обрабатывает последовательности до 256K токенов с минимальной тонкой настройкой, достигая исключительной скорости и способности к экстраполяции.

Как гибридные модели ИИ балансируют память и эффективность

2025/10/28 17:13

Резюме и 1. Введение

  1. Методология

  2. Эксперименты и результаты

    3.1 Языковое моделирование на данных vQuality

    3.2 Исследование внимания и линейной рекурсии

    3.3 Эффективная экстраполяция длины

    3.4 Понимание длинного контекста

  3. Анализ

  4. Заключение, благодарности и ссылки

A. Детали реализации

B. Дополнительные результаты экспериментов

C. Детали измерения энтропии

D. Ограничения

\

A Детали реализации

\ Для слоя GLA в архитектуре Sliding GLA мы используем количество головок dm/384, коэффициент расширения ключа 0,5 и коэффициент расширения значения 1. Для слоя RetNet мы используем количество головок, равное половине количества головок запроса внимания, коэффициент расширения ключа 1 и коэффициент расширения значения 2. Реализации GLA и RetNet взяты из репозитория Flash Linear Attention[3] [YZ24]. Мы используем реализацию на основе FlashAttention для экстраполяции Self-Extend[4]. Модель Mamba 432M имеет ширину модели 1024, а модель Mamba 1.3B имеет ширину модели 2048. Все модели, обученные на SlimPajama, имеют одинаковые конфигурации обучения и промежуточный размер MLP, как у Samba, если не указано иное. Инфраструктура обучения на SlimPajama основана на модифицированной версии кодовой базы TinyLlama[5].

\ Таблица 10: Подробные гиперпараметры моделей SAMBA, обученных в разных масштабах. Мы показываем только настройки оптимизации для первой фазы обучения модели 3.8B.

\ В конфигурациях генерации для нисходящих задач мы используем жадное декодирование для GSM8K и выборку Nucleus Sampling [HBD+19] с температурой τ = 0,2 и top-p = 0,95 для HumanEval. Для MBPP и SQuAD мы устанавливаем τ = 0,01 и top-p = 0,95.

B Дополнительные результаты экспериментов

\ Рисунок 6: Кривые потерь при обучении моделей Samba 1.7B и Mistral 1.6B в течение 500 шагов инструктивной настройки на задаче Passkey Retrieval с длиной последовательности 4K. Мы строим кривые потерь для обеих моделей, используя простое скользящее среднее с размером окна 10.

\

\ Рисунок 7: Общая точность извлечения ключей доступа при длине документа 256K для моделей Samba 1.7B и Mistral 1.6B в течение 500 шагов инструктивной настройки.

\

C Детали измерения энтропии

\

\

D Ограничения

Хотя Samba демонстрирует многообещающую производительность извлечения памяти через инструктивную настройку, его предварительно обученная базовая модель имеет производительность извлечения, аналогичную модели на основе SWA, как показано на рисунке 7. Это открывает будущее направление по дальнейшему улучшению способности Samba к извлечению без ущерба для его эффективности и способности к экстраполяции. Кроме того, стратегия гибридизации Samba не всегда лучше других альтернатив во всех задачах. Как показано в таблице 2, MambaSWA-MLP показывает улучшенную производительность в таких задачах, как WinoGrande, SIQA и GSM8K. Это дает нам возможность инвестировать в более сложный подход для выполнения зависящих от входных данных динамических комбинаций моделей на основе SWA и SSM.

\

:::info Авторы:

(1) Liliang Ren, Microsoft и University of Illinois at Urbana-Champaign (liliangren@microsoft.com);

(2) Yang Liu†, Microsoft (yaliu10@microsoft.com);

(3) Yadong Lu†, Microsoft (yadonglu@microsoft.com);

(4) Yelong Shen, Microsoft (yelong.shen@microsoft.com);

(5) Chen Liang, Microsoft (chenliang1@microsoft.com);

(6) Weizhu Chen, Microsoft (wzchen@microsoft.com).

:::


:::info Эта статья доступна на arxiv по лицензии CC BY 4.0.

:::

[3] https://github.com/sustcsonglin/flash-linear-attention

\ [4] https://github.com/datamllab/LongLM/blob/master/selfextendpatch/Llama.py

\ [5] https://github.com/jzhang38/TinyLlama

Возможности рынка
Логотип Sleepless AI
Sleepless AI Курс (AI)
$0.03711
$0.03711$0.03711
-3.05%
USD
График цены Sleepless AI (AI) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Криптовалютный рынок готовится к волатильности в преддверии выступления Джерома Пауэлла во вторник

Криптовалютный рынок готовится к волатильности в преддверии выступления Джерома Пауэлла во вторник

Пост Криптовалютный рынок готовится к волатильности в преддверии выступления Джерома Пауэлла во вторник появился на BitcoinEthereumNews.com. Джером Пауэлл обратится к нации с экономическим прогнозом в следующий вторник. Предстоящее выступление Пауэлла следует за прошлонедельным снижением процентной ставки. Инвесторы ожидают, что выступление Пауэлла вызовет волатильность на рынке криптоактивов. Председатель Федеральной резервной системы США, Джером Пауэлл, обратится к нации с экономическим прогнозом в следующий вторник, 23 сентября 2025 года. Граждане США и экономические наблюдатели по всему миру проявляют интерес к предстоящему выступлению, которое, как ожидает большинство людей, вызовет волатильность на мировых рынках, включая рынок криптоактивов. Инвесторы ожидают намеков на будущие направления рынка Предстоящее выступление Пауэлла, которое запланировано на обеде по экономическому прогнозу Торговой палаты Большого Провиденса 2025 года в Уорике, Род-Айленд, последует за прошлонедельным снижением процентной ставки. Большинство финансовых аналитиков ожидают, что Пауэлл прольет больше света на потенциальное влияние последней политики, поскольку они сосредоточены на возможных намеках относительно краткосрочного и среднесрочного направления экономики США. Связанное: Сентябрьское снижение ставки ФРС теперь "запущено", говорят Barclays и BNP после выступления Пауэлла Прошлонедельное снижение процентной ставки, первое после длительного периода для США, дало инвесторам много пищи для размышлений, несмотря на предварительные ожидания. Снижение базовой ставки овернайт на четверть процентного пункта вызвало внутренние корректировки политики для бизнеса и инвесторов. Однако развитие событий оказалось более критичным после намеков на то, что ФРС может реализовать до двух дополнительных снижений ставки до конца года. Выступление Пауэлла может обеспечить большую экономическую ясность Ожидаемо, последнее решение ФРС по процентной ставке погрузило мировую финансовую экосистему в сложный анализ, при этом эксперты пытаются предугадать, что может произойти в долгосрочной перспективе. Например, недавно назначенный управляющий ФРС Стивен Миран считает, что снижение процентных ставок может продолжиться в следующем году, с еще одним снижением ставки в 2026 году. Между тем, некоторые другие члены...
Поделиться
BitcoinEthereumNews2025/09/22 04:00
OpenAI выпустила новый генератор изображений GPT Image 1.5

OpenAI выпустила новый генератор изображений GPT Image 1.5

Компания OpenAI выпустила новую версию генератора изображений ChatGPT Images — GPT Image 1.5. Модель точнее следует промптам, лучше справляется с редактировани
Поделиться
Forklog2025/12/17 16:07
SEC закрыла дело против DeFi-протокола Aave

SEC закрыла дело против DeFi-протокола Aave

Основатель проекта Стани Кулечов поделился планами на 2026 год Комиссия по ценным бумагам и биржам США (SEC) завершила четырехлетнее расследование в отношении л
Поделиться
ProBlockChain2025/12/17 12:50