Bằng cách kết hợp các ưu điểm của mô hình không gian trạng thái (SSMs) với cơ chế chú ý, SAMBA giới thiệu một kiến trúc neural lai cho phép mô hình hóa ngôn ngữ hiệu quả, có khả năng mở rộng với độ dài ngữ cảnh gần như vô hạn. SAMBA vượt trội hơn cả các mô hình dựa trên chú ý thuần túy và các mô hình dựa trên SSM trong nhiều chỉ số về lập luận, hiểu biết và lập trình khi được huấn luyện trên SlimPajama với các thiết lập nhất quán. Mô hình xử lý chuỗi lên đến 256K token với rất ít tinh chỉnh, đạt được tốc độ và khả năng ngoại suy đặc biệt.Bằng cách kết hợp các ưu điểm của mô hình không gian trạng thái (SSMs) với cơ chế chú ý, SAMBA giới thiệu một kiến trúc neural lai cho phép mô hình hóa ngôn ngữ hiệu quả, có khả năng mở rộng với độ dài ngữ cảnh gần như vô hạn. SAMBA vượt trội hơn cả các mô hình dựa trên chú ý thuần túy và các mô hình dựa trên SSM trong nhiều chỉ số về lập luận, hiểu biết và lập trình khi được huấn luyện trên SlimPajama với các thiết lập nhất quán. Mô hình xử lý chuỗi lên đến 256K token với rất ít tinh chỉnh, đạt được tốc độ và khả năng ngoại suy đặc biệt.

Cách Các Mô Hình AI Lai Cân Bằng Bộ Nhớ và Hiệu Suất

2025/10/28 17:13

Tóm tắt và 1. Giới thiệu

  1. Phương pháp

  2. Thí nghiệm và Kết quả

    3.1 Mô hình hóa ngôn ngữ trên dữ liệu vQuality

    3.2 Khám phá về Attention và Tính đệ quy tuyến tính

    3.3 Ngoại suy độ dài hiệu quả

    3.4 Hiểu ngữ cảnh dài

  3. Phân tích

  4. Kết luận, Lời cảm ơn và Tài liệu tham khảo

A. Chi tiết triển khai

B. Kết quả thí nghiệm bổ sung

C. Chi tiết về đo lường Entropy

D. Hạn chế

\

A Chi tiết triển khai

\ Đối với lớp GLA trong kiến trúc Sliding GLA, chúng tôi sử dụng số lượng đầu dm/384, tỷ lệ mở rộng khóa là 0.5 và tỷ lệ mở rộng giá trị là 1. Đối với lớp RetNet, chúng tôi sử dụng số lượng đầu bằng một nửa số đầu truy vấn attention, tỷ lệ mở rộng khóa là 1 và tỷ lệ mở rộng giá trị là 2. Các triển khai GLA và RetNet được lấy từ kho Flash Linear Attention[3] [YZ24]. Chúng tôi sử dụng triển khai dựa trên FlashAttention cho ngoại suy Self-Extend[4]. Mô hình Mamba 432M có độ rộng mô hình là 1024 và mô hình Mamba 1.3B có độ rộng mô hình là 2048. Tất cả các mô hình được huấn luyện trên SlimPajama đều có cấu hình huấn luyện giống nhau và kích thước trung gian MLP giống như Samba, trừ khi được chỉ định khác. Cơ sở hạ tầng huấn luyện trên SlimPajama dựa trên phiên bản sửa đổi của mã nguồn TinyLlama[5].

\ Bảng 10: Siêu tham số chi tiết của các mô hình SAMBA được huấn luyện ở các quy mô khác nhau. Chúng tôi chỉ hiển thị cài đặt tối ưu hóa cho giai đoạn huấn luyện đầu tiên của mô hình 3.8B.

\ Trong cấu hình tạo ra cho các tác vụ hạ nguồn, chúng tôi sử dụng giải mã tham lam cho GSM8K và Nucleus Sampling [HBD+19] với nhiệt độ τ = 0.2 và top-p = 0.95 cho HumanEval. Đối với MBPP và SQuAD, chúng tôi đặt τ = 0.01 và top-p = 0.95.

B Kết quả thí nghiệm bổ sung

\ Hình 6: Đường cong mất mát huấn luyện của các mô hình Samba 1.7B và Mistral 1.6B trong 500 bước điều chỉnh hướng dẫn trên Passkey Retrieval với độ dài chuỗi 4K. Chúng tôi vẽ đường cong mất mát cho cả hai mô hình sử dụng trung bình động đơn giản với kích thước cửa sổ 10.

\

\ Hình 7: Độ chính xác truy xuất passkey tổng thể trên độ dài tài liệu 256K của các mô hình Samba 1.7B và Mistral 1.6B trong 500 bước điều chỉnh hướng dẫn.

\

C Chi tiết về đo lường Entropy

\

\

D Hạn chế

Mặc dù Samba thể hiện hiệu suất truy xuất bộ nhớ đầy hứa hẹn thông qua điều chỉnh hướng dẫn, mô hình cơ sở được huấn luyện trước của nó có hiệu suất truy xuất tương tự như mô hình dựa trên SWA, như được hiển thị trong Hình 7. Điều này mở ra hướng phát triển trong tương lai để cải thiện hơn nữa khả năng truy xuất của Samba mà không ảnh hưởng đến hiệu quả và khả năng ngoại suy của nó. Ngoài ra, chiến lược lai hóa của Samba không nhất quán tốt hơn các phương án thay thế khác trong tất cả các tác vụ. Như được hiển thị trong Bảng 2, MambaSWA-MLP cho thấy hiệu suất cải thiện trên các tác vụ như WinoGrande, SIQA và GSM8K. Điều này mang lại cho chúng tôi tiềm năng đầu tư vào một phương pháp tinh vi hơn để thực hiện kết hợp động phụ thuộc vào đầu vào của các mô hình dựa trên SWA và dựa trên SSM.

\

:::info Tác giả:

(1) Liliang Ren, Microsoft và University of Illinois at Urbana-Champaign (liliangren@microsoft.com);

(2) Yang Liu†, Microsoft (yaliu10@microsoft.com);

(3) Yadong Lu†, Microsoft (yadonglu@microsoft.com);

(4) Yelong Shen, Microsoft (yelong.shen@microsoft.com);

(5) Chen Liang, Microsoft (chenliang1@microsoft.com);

(6) Weizhu Chen, Microsoft (wzchen@microsoft.com).

:::


:::info Bài báo này có sẵn trên arxiv theo giấy phép CC BY 4.0.

:::

[3] https://github.com/sustcsonglin/flash-linear-attention

\ [4] https://github.com/datamllab/LongLM/blob/master/selfextendpatch/Llama.py

\ [5] https://github.com/jzhang38/TinyLlama

Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ service@support.mexc.com để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.

Có thể bạn cũng thích