透過結合狀態空間模型(SSMs)與注意力機制的優勢,SAMBA 呈現了一種混合神經架構,能夠實現有效、可擴展的語言建模,具有幾乎無限的上下文長度。在使用一致設置在 SlimPajama 上訓練時,SAMBA 在各種推理、理解和編碼指標上超越了純注意力基礎和 SSM 基礎模型。該模型處理長達 256K 標記的序列只需少量微調,實現了卓越的速度和外推能力。透過結合狀態空間模型(SSMs)與注意力機制的優勢,SAMBA 呈現了一種混合神經架構,能夠實現有效、可擴展的語言建模,具有幾乎無限的上下文長度。在使用一致設置在 SlimPajama 上訓練時,SAMBA 在各種推理、理解和編碼指標上超越了純注意力基礎和 SSM 基礎模型。該模型處理長達 256K 標記的序列只需少量微調,實現了卓越的速度和外推能力。

混合式 AI 模型如何平衡記憶體與效率

摘要和1. 引言

  1. 方法論

  2. 實驗和結果

    3.1 在vQuality數據上的語言建模

    3.2 關於注意力和線性遞迴的探索

    3.3 高效長度外推

    3.4 長上下文理解

  3. 分析

  4. 結論、致謝和參考文獻

A. 實現細節

B. 額外實驗結果

C. 熵測量詳情

D. 局限性

\

A 實現細節

\ 對於滑動GLA架構中的GLA層,我們使用頭數dm/384、鍵擴展比率0.5和值擴展比率1。對於RetNet層,我們使用的頭數是注意力查詢頭數的一半,鍵擴展比率為1,值擴展比率為2。GLA和RetNet的實現來自Flash Linear Attention存儲庫[3] [YZ24]。我們使用基於FlashAttention的實現進行Self-Extend外推[4]。Mamba 432M模型的模型寬度為1024,而Mamba 1.3B模型的模型寬度為2048。除非另有說明,所有在SlimPajama上訓練的模型都具有相同的訓練配置和與Samba相同的MLP中間大小。SlimPajama上的訓練基礎設施基於TinyLlama代碼庫的修改版本[5]。

\ 表10:在不同規模上訓練的SAMBA模型的詳細超參數。我們僅顯示3.8B模型第一訓練階段的優化設置。

\ 在下游任務的生成配置中,我們對GSM8K使用貪婪解碼,對HumanEval使用溫度τ = 0.2和top-p = 0.95的核採樣[HBD+19]。對於MBPP和SQuAD,我們設置τ = 0.01和top-p = 0.95。

B 額外實驗結果

\ 圖6:Samba 1.7B和Mistral 1.6B模型在4K序列長度的密鑰檢索指令微調500步期間的訓練損失曲線。我們使用窗口大小為10的簡單移動平均繪製兩個模型的損失曲線。

\

\ 圖7:Samba 1.7B和Mistral 1.6B模型在指令微調500步期間在256K文檔長度上的整體密鑰檢索準確率。

\

C 熵測量詳情

\

\

D 局限性

雖然Samba通過指令微調展示了有希望的記憶檢索性能,但其預訓練基礎模型的檢索性能與基於SWA的模型相似,如圖7所示。這為未來進一步提高Samba的檢索能力而不損害其效率和外推能力開闢了方向。此外,Samba的混合策略在所有任務中並不始終優於其他替代方案。如表2所示,MambaSWA-MLP在WinoGrande、SIQA和GSM8K等任務上表現出改進的性能。這使我們有可能投資於更複雜的方法來執行基於SWA和基於SSM模型的輸入依賴動態組合。

\

:::info 作者:

(1) Liliang Ren,Microsoft和伊利諾伊大學厄巴納-香檳分校 (liliangren@microsoft.com);

(2) Yang Liu†,Microsoft (yaliu10@microsoft.com);

(3) Yadong Lu†,Microsoft (yadonglu@microsoft.com);

(4) Yelong Shen,Microsoft (yelong.shen@microsoft.com);

(5) Chen Liang,Microsoft (chenliang1@microsoft.com);

(6) Weizhu Chen,Microsoft (wzchen@microsoft.com)。

:::


:::info 本論文可在arxiv上獲取,採用CC BY 4.0許可證。

:::

[3] https://github.com/sustcsonglin/flash-linear-attention

\ [4] https://github.com/datamllab/LongLM/blob/master/selfextendpatch/Llama.py

\ [5] https://github.com/jzhang38/TinyLlama

市場機遇
Sleepless AI 圖標
Sleepless AI實時價格 (AI)
$0.03564
$0.03564$0.03564
-1.76%
USD
Sleepless AI (AI) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。