Hỗn hợp các phương pháp thích ứng (Mixture-of-Adaptations - MoA) giới thiệu định tuyến ngẫu nhiên, điều chỉnh tính nhất quán và hợp nhất mô-đun để làm cho việc tinh chỉnh mô hình ngôn ngữ lớn hiệu quả hơn về tham số. Bằng cách định tuyến ngẫu nhiên đầu vào qua các mô-đun thích ứng, sau đó hợp nhất hoặc lấy trung bình trọng số của chúng, MoA giảm FLOPs và chi phí tính toán mà không làm giảm hiệu suất. Phương pháp này kết nối với suy luận Bayesian và tổng hợp mô hình, cung cấp một con đường mạnh mẽ nhưng hiệu quả để thích ứng các mô hình ngôn ngữ lớn (LLMs).Hỗn hợp các phương pháp thích ứng (Mixture-of-Adaptations - MoA) giới thiệu định tuyến ngẫu nhiên, điều chỉnh tính nhất quán và hợp nhất mô-đun để làm cho việc tinh chỉnh mô hình ngôn ngữ lớn hiệu quả hơn về tham số. Bằng cách định tuyến ngẫu nhiên đầu vào qua các mô-đun thích ứng, sau đó hợp nhất hoặc lấy trung bình trọng số của chúng, MoA giảm FLOPs và chi phí tính toán mà không làm giảm hiệu suất. Phương pháp này kết nối với suy luận Bayesian và tổng hợp mô hình, cung cấp một con đường mạnh mẽ nhưng hiệu quả để thích ứng các mô hình ngôn ngữ lớn (LLMs).

Làm thế nào Mixture-of-Adaptations Giúp Fine-Tuning Mô hình Ngôn ngữ Rẻ hơn và Thông minh hơn

Tóm tắt và 1. Giới thiệu

  1. Nền tảng

    2.1 Mixture-of-Experts

    2.2 Adapters

  2. Mixture-of-Adaptations

    3.1 Chính sách định tuyến

    3.2 Điều chuẩn nhất quán

    3.3 Hợp nhất mô-đun thích ứng và 3.4 Chia sẻ mô-đun thích ứng

    3.5 Kết nối với Mạng thần kinh Bayesian và Mô hình tổng hợp

  3. Thí nghiệm

    4.1 Thiết lập thí nghiệm

    4.2 Kết quả chính

    4.3 Nghiên cứu loại bỏ

  4. Công trình liên quan

  5. Kết luận

  6. Hạn chế

  7. Lời cảm ơn và Tài liệu tham khảo

Phụ lục

A. Bộ dữ liệu NLU ít mẫu B. Nghiên cứu loại bỏ C. Kết quả chi tiết trên các tác vụ NLU D. Siêu tham số

3 Mixture-of-Adaptations

\

3.1 Chính sách định tuyến

Các công trình gần đây như THOR (Zuo et al., 2021) đã chứng minh chính sách định tuyến ngẫu nhiên hoạt động hiệu quả tương đương với cơ chế định tuyến cổ điển như Switch routing (Fedus et al., 2021) với những lợi ích sau. Vì các mẫu đầu vào được định tuyến ngẫu nhiên đến các chuyên gia khác nhau, không cần cân bằng tải bổ sung vì mỗi chuyên gia có cơ hội bình đẳng được kích hoạt, đơn giản hóa khuôn khổ. Hơn nữa, không có tham số bổ sung, và do đó không có tính toán thêm, tại lớp Switch để lựa chọn chuyên gia. Điều sau đặc biệt quan trọng trong thiết lập của chúng tôi để tinh chỉnh hiệu quả tham số, giữ cho tham số và FLOPs giống như của một mô-đun thích ứng đơn lẻ. Để phân tích hoạt động của AdaMix, chúng tôi chứng minh kết nối giữa định tuyến ngẫu nhiên và trung bình hóa trọng số mô hình với Mạng thần kinh Bayesian và mô hình tổng hợp trong Phần 3.5.

\ \

\ \ Định tuyến ngẫu nhiên như vậy cho phép các mô-đun thích ứng học các phép biến đổi khác nhau trong quá trình huấn luyện và thu được nhiều góc nhìn về tác vụ. Tuy nhiên, điều này cũng tạo ra thách thức về việc sử dụng mô-đun nào trong quá trình suy luận do giao thức định tuyến ngẫu nhiên trong quá trình huấn luyện. Chúng tôi giải quyết thách thức này với hai kỹ thuật sau, cho phép chúng tôi thu gọn các mô-đun thích ứng và đạt được chi phí tính toán tương tự (FLOPs, số tham số thích ứng có thể điều chỉnh) như của một mô-đun đơn lẻ.

3.2 Điều chuẩn nhất quán

\

\ \ \

3.3 Hợp nhất mô-đun thích ứng

Mặc dù điều chuẩn trên giảm thiểu sự không nhất quán trong việc lựa chọn mô-đun ngẫu nhiên trong quá trình suy luận, nó vẫn dẫn đến chi phí phục vụ tăng lên để lưu trữ nhiều mô-đun thích ứng. Các công trình trước đây trong việc tinh chỉnh mô hình ngôn ngữ cho các tác vụ hạ nguồn đã cho thấy hiệu suất cải thiện khi trung bình hóa trọng số của các mô hình tinh chỉnh khác nhau với các hạt giống ngẫu nhiên khác nhau, vượt trội hơn một mô hình tinh chỉnh đơn lẻ. Công trình gần đây (Wortsman et al., 2022) cũng đã chỉ ra rằng các mô hình tinh chỉnh khác nhau từ cùng một khởi tạo nằm trong cùng một lưu vực lỗi, thúc đẩy việc sử dụng tổng hợp trọng số cho việc tóm tắt tác vụ mạnh mẽ. Chúng tôi áp dụng và mở rộng các kỹ thuật trước đây cho việc tinh chỉnh mô hình ngôn ngữ vào quá trình huấn luyện hiệu quả tham số của các mô-đun thích ứng đa góc nhìn

\ \

\

3.4 Chia sẻ mô-đun thích ứng

\

3.5 Kết nối với Mạng thần kinh Bayesian và Mô hình tổng hợp

\

\ \ Điều này đòi hỏi phải tính trung bình trên tất cả các trọng số mô hình có thể, điều này không khả thi trong thực tế. Do đó, một số phương pháp xấp xỉ đã được phát triển dựa trên các phương pháp suy luận biến phân và kỹ thuật điều chuẩn ngẫu nhiên sử dụng dropouts. Trong công trình này, chúng tôi tận dụng một điều chuẩn ngẫu nhiên khác dưới dạng định tuyến ngẫu nhiên. Ở đây, mục tiêu là tìm một phân phối thay thế qθ(w) trong một họ phân phối khả thi có thể thay thế cho hậu nghiệm mô hình thực sự khó tính toán. Phân phối thay thế lý tưởng được xác định bằng cách tối thiểu hóa độ phân kỳ Kullback-Leibler (KL) giữa ứng viên và hậu nghiệm thực.

\ \

\ \ \

\ \ \

\ \ \ \

:::info Tác giả:

(1) Yaqing Wang, Đại học Purdue (wang5075@purdue.edu);

(2) Sahaj Agarwal, Microsoft (sahagar@microsoft.com);

(3) Subhabrata Mukherjee, Microsoft Research (submukhe@microsoft.com);

(4) Xiaodong Liu, Microsoft Research (xiaodl@microsoft.com);

(5) Jing Gao, Đại học Purdue (jinggao@purdue.edu);

(6) Ahmed Hassan Awadallah, Microsoft Research (hassanam@microsoft.com);

(7) Jianfeng Gao, Microsoft Research (jfgao@microsoft.com).

:::


:::info Bài báo này có sẵn trên arxiv theo giấy phép CC BY 4.0 DEED.

:::

\

Cơ hội thị trường
Logo FINE
Giá FINE(FINE)
$0.0000000007811
$0.0000000007811$0.0000000007811
+0.95%
USD
Biểu đồ giá FINE (FINE) theo thời gian thực
Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ service@support.mexc.com để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.