Jessie A Ellis
04/12/2025 17:54
Together AI giới thiệu các pipeline TorchForge RL trên nền tảng điện toán đám mây của mình, nâng cao khả năng đào tạo phân tán và môi trường sandbox với bản demo đào tạo BlackJack.
Các pipeline học tăng cường (RL) TorchForge hiện đã hoạt động liền mạch trên Instant Clusters của Together AI, cung cấp hỗ trợ mạnh mẽ cho đào tạo phân tán, thực thi công cụ và môi trường sandbox, như đã được chứng minh qua bản demo đào tạo BlackJack mã nguồn mở, theo together.ai.
Điện toán đám mây AI Native: Nền tảng cho RL thế hệ tiếp theo
Trong lĩnh vực học tăng cường đang phát triển nhanh chóng, việc xây dựng hệ thống linh hoạt và có khả năng mở rộng đòi hỏi các khung tính toán và công cụ tương thích và hiệu quả. Các pipeline RL hiện đại đã vượt qua các vòng đào tạo cơ bản, giờ đây phụ thuộc nhiều vào việc triển khai phân tán, suy luận thông lượng cao và sử dụng phối hợp tài nguyên CPU và GPU.
Bộ công cụ PyTorch toàn diện, bao gồm TorchForge và Monarch, hiện hoạt động với khả năng đào tạo phân tán trên Together Instant Clusters. Các cụm này cung cấp:
- Giao tiếp GPU độ trễ thấp: Sử dụng tô pô InfiniBand/NVLink cho việc truyền dữ liệu dựa trên RDMA hiệu quả và nhắn tin actor phân tán.
- Khởi động cụm nhất quán: Được cấu hình sẵn với trình điều khiển, NCCL, CUDA và toán tử GPU, cho phép các công việc phân tán PyTorch chạy mà không cần thiết lập thủ công.
- Lập lịch khối lượng công việc RL không đồng nhất: Các nút GPU được tối ưu hóa cho bản sao chính sách và người đào tạo, cùng với các nút được tối ưu hóa cho CPU để thực thi môi trường và công cụ.
Các cụm của Together AI phù hợp cho các khung RL đòi hỏi sự kết hợp giữa tính toán mô hình gắn với GPU và khối lượng công việc môi trường gắn với CPU.
Tích hợp và Trình diễn Công cụ Nâng cao
Một phần đáng kể của khối lượng công việc RL liên quan đến việc thực thi công cụ, chạy mã hoặc tương tác với môi trường sandbox. Nền tảng của Together AI hỗ trợ tự nhiên các yêu cầu này thông qua:
- Together CodeSandbox: Môi trường MicroVM được thiết kế cho việc sử dụng công cụ, nhiệm vụ lập trình và mô phỏng.
- Together Code Interpreter: Tạo điều kiện thực thi Python nhanh chóng, biệt lập phù hợp cho các chức năng phần thưởng dựa trên unit-test hoặc nhiệm vụ đánh giá mã.
Cả CodeSandbox và Code Interpreter đều tích hợp với dịch vụ môi trường OpenEnv và TorchForge, cho phép người thực hiện rollout sử dụng các công cụ này trong quá trình đào tạo.
Bản Demo Đào tạo BlackJack
Together AI đã phát hành một bản trình diễn về pipeline TorchForge RL chạy trên Instant Clusters của mình, tương tác với môi trường OpenEnv được lưu trữ trên Together CodeSandbox. Bản demo này, được điều chỉnh từ triển khai tham khảo của Meta, đào tạo mô hình Qwen 1.5B để chơi BlackJack sử dụng GRPO. Pipeline RL tích hợp máy chủ chính sách vLLM, môi trường BlackJack, mô hình tham chiếu, bộ đệm phát lại off-policy và trình đào tạo TorchTitan—được kết nối thông qua lưới actor của Monarch và sử dụng TorchStore để đồng bộ hóa trọng số.
Kho lưu trữ OpenEnv GRPO BlackJack bao gồm các manifest Kubernetes và script thiết lập. Việc triển khai và khởi tạo đào tạo được tối ưu hóa với các lệnh kubectl đơn giản, cho phép thử nghiệm với cấu hình mô hình và điều chỉnh siêu tham số GRPO.
Ngoài ra, một tích hợp độc lập bao bọc Code Interpreter của Together như một môi trường OpenEnv, cho phép các agent RL tương tác với Interpreter giống như bất kỳ môi trường nào khác. Tích hợp này cho phép các pipeline RL được áp dụng cho các nhiệm vụ đa dạng như lập trình và suy luận toán học.
Các bản trình diễn nhấn mạnh rằng việc đào tạo RL đa thành phần, phức tạp có thể được thực hiện trên Together AI Cloud một cách dễ dàng, tạo tiền đề cho một khung RL mở, linh hoạt trong hệ sinh thái PyTorch, có khả năng mở rộng trên Together AI Cloud.
Nguồn hình ảnh: Shutterstock
Source: https://blockchain.news/news/torchforge-rl-pipelines-operable-together-ai-cloud


