Bài đăng TorchForge RL Pipelines hiện đã hoạt động trên Cloud của Together AI xuất hiện trên BitcoinEthereumNews.com. Jessie A Ellis 04/12/2025 17:54 Together AI giới thiệu TorchForge RL pipelines trên nền tảng đám mây của mình, nâng cao khả năng đào tạo phân tán và môi trường sandbox với bản demo đào tạo BlackJack. Các pipeline học tăng cường (RL) TorchForge hiện đã hoạt động liền mạch trên Together AI's Instant Clusters, cung cấp hỗ trợ mạnh mẽ cho đào tạo phân tán, thực thi công cụ và môi trường sandbox, như đã được chứng minh qua bản demo đào tạo BlackJack mã nguồn mở, theo together.ai. AI Native Cloud: Nền tảng cho RL thế hệ tiếp theo Trong lĩnh vực học tăng cường đang phát triển nhanh chóng, việc xây dựng hệ thống linh hoạt và có khả năng mở rộng đòi hỏi các khung tính toán và công cụ tương thích và hiệu quả. Các pipeline RL hiện đại đã vượt qua các vòng đào tạo cơ bản, hiện phụ thuộc nhiều vào việc triển khai phân tán, suy luận thông lượng cao và sử dụng phối hợp tài nguyên CPU và GPU. Bộ PyTorch toàn diện, bao gồm TorchForge và Monarch, hiện hoạt động với khả năng đào tạo phân tán trên Together Instant Clusters. Các cụm này cung cấp: Giao tiếp GPU độ trễ thấp: Sử dụng tô pô InfiniBand/NVLink cho việc truyền dữ liệu dựa trên RDMA hiệu quả và nhắn tin actor phân tán. Khởi động cụm nhất quán: Được cấu hình sẵn với drivers, NCCL, CUDA và GPU operator, cho phép các công việc PyTorch phân tán chạy mà không cần thiết lập thủ công. Lập lịch khối lượng công việc RL không đồng nhất: Các node GPU được tối ưu hóa cho các bản sao chính sách và người đào tạo, cùng với các node được tối ưu hóa cho CPU để thực thi môi trường và công cụ. Các cụm của Together AI phù hợp với các khung RL đòi hỏi sự kết hợp giữa tính toán mô hình ràng buộc GPU và khối lượng công việc môi trường ràng buộc CPU. Tích hợp công cụ nâng cao và trình diễn Một phần đáng kể của khối lượng công việc RL liên quan đến việc thực thi công cụ, chạy mã hoặc tương tác với môi trường sandbox. Nền tảng của Together AI hỗ trợ các yêu cầu này một cách tự nhiên thông qua: Together CodeSandbox: Môi trường MicroVM được thiết kế riêng cho việc sử dụng công cụ, nhiệm vụ lập trình và mô phỏng. Together Code Interpreter: Tạo điều kiện cho việc thực thi Python nhanh chóng, biệt lập phù hợp cho các chức năng phần thưởng dựa trên unit-test hoặc nhiệm vụ đánh giá mã. Cả CodeSandbox và Code Interpreter đều tích hợp với các dịch vụ môi trường OpenEnv và TorchForge, cho phép các worker triển khai sử dụng các công cụ này...Bài đăng TorchForge RL Pipelines hiện đã hoạt động trên Cloud của Together AI xuất hiện trên BitcoinEthereumNews.com. Jessie A Ellis 04/12/2025 17:54 Together AI giới thiệu TorchForge RL pipelines trên nền tảng đám mây của mình, nâng cao khả năng đào tạo phân tán và môi trường sandbox với bản demo đào tạo BlackJack. Các pipeline học tăng cường (RL) TorchForge hiện đã hoạt động liền mạch trên Together AI's Instant Clusters, cung cấp hỗ trợ mạnh mẽ cho đào tạo phân tán, thực thi công cụ và môi trường sandbox, như đã được chứng minh qua bản demo đào tạo BlackJack mã nguồn mở, theo together.ai. AI Native Cloud: Nền tảng cho RL thế hệ tiếp theo Trong lĩnh vực học tăng cường đang phát triển nhanh chóng, việc xây dựng hệ thống linh hoạt và có khả năng mở rộng đòi hỏi các khung tính toán và công cụ tương thích và hiệu quả. Các pipeline RL hiện đại đã vượt qua các vòng đào tạo cơ bản, hiện phụ thuộc nhiều vào việc triển khai phân tán, suy luận thông lượng cao và sử dụng phối hợp tài nguyên CPU và GPU. Bộ PyTorch toàn diện, bao gồm TorchForge và Monarch, hiện hoạt động với khả năng đào tạo phân tán trên Together Instant Clusters. Các cụm này cung cấp: Giao tiếp GPU độ trễ thấp: Sử dụng tô pô InfiniBand/NVLink cho việc truyền dữ liệu dựa trên RDMA hiệu quả và nhắn tin actor phân tán. Khởi động cụm nhất quán: Được cấu hình sẵn với drivers, NCCL, CUDA và GPU operator, cho phép các công việc PyTorch phân tán chạy mà không cần thiết lập thủ công. Lập lịch khối lượng công việc RL không đồng nhất: Các node GPU được tối ưu hóa cho các bản sao chính sách và người đào tạo, cùng với các node được tối ưu hóa cho CPU để thực thi môi trường và công cụ. Các cụm của Together AI phù hợp với các khung RL đòi hỏi sự kết hợp giữa tính toán mô hình ràng buộc GPU và khối lượng công việc môi trường ràng buộc CPU. Tích hợp công cụ nâng cao và trình diễn Một phần đáng kể của khối lượng công việc RL liên quan đến việc thực thi công cụ, chạy mã hoặc tương tác với môi trường sandbox. Nền tảng của Together AI hỗ trợ các yêu cầu này một cách tự nhiên thông qua: Together CodeSandbox: Môi trường MicroVM được thiết kế riêng cho việc sử dụng công cụ, nhiệm vụ lập trình và mô phỏng. Together Code Interpreter: Tạo điều kiện cho việc thực thi Python nhanh chóng, biệt lập phù hợp cho các chức năng phần thưởng dựa trên unit-test hoặc nhiệm vụ đánh giá mã. Cả CodeSandbox và Code Interpreter đều tích hợp với các dịch vụ môi trường OpenEnv và TorchForge, cho phép các worker triển khai sử dụng các công cụ này...

Đường dẫn RL TorchForge hiện có thể vận hành trên nền tảng đám mây của Together AI

2025/12/06 15:05


Jessie A Ellis
04/12/2025 17:54

Together AI giới thiệu các pipeline TorchForge RL trên nền tảng điện toán đám mây của mình, nâng cao khả năng đào tạo phân tán và môi trường sandbox với bản demo đào tạo BlackJack.

Các pipeline học tăng cường (RL) TorchForge hiện đã hoạt động liền mạch trên Instant Clusters của Together AI, cung cấp hỗ trợ mạnh mẽ cho đào tạo phân tán, thực thi công cụ và môi trường sandbox, như đã được chứng minh qua bản demo đào tạo BlackJack mã nguồn mở, theo together.ai.

Điện toán đám mây AI Native: Nền tảng cho RL thế hệ tiếp theo

Trong lĩnh vực học tăng cường đang phát triển nhanh chóng, việc xây dựng hệ thống linh hoạt và có khả năng mở rộng đòi hỏi các khung tính toán và công cụ tương thích và hiệu quả. Các pipeline RL hiện đại đã vượt qua các vòng đào tạo cơ bản, giờ đây phụ thuộc nhiều vào việc triển khai phân tán, suy luận thông lượng cao và sử dụng phối hợp tài nguyên CPU và GPU.

Bộ công cụ PyTorch toàn diện, bao gồm TorchForge và Monarch, hiện hoạt động với khả năng đào tạo phân tán trên Together Instant Clusters. Các cụm này cung cấp:

  • Giao tiếp GPU độ trễ thấp: Sử dụng tô pô InfiniBand/NVLink cho việc truyền dữ liệu dựa trên RDMA hiệu quả và nhắn tin actor phân tán.
  • Khởi động cụm nhất quán: Được cấu hình sẵn với trình điều khiển, NCCL, CUDA và toán tử GPU, cho phép các công việc phân tán PyTorch chạy mà không cần thiết lập thủ công.
  • Lập lịch khối lượng công việc RL không đồng nhất: Các nút GPU được tối ưu hóa cho bản sao chính sách và người đào tạo, cùng với các nút được tối ưu hóa cho CPU để thực thi môi trường và công cụ.

Các cụm của Together AI phù hợp cho các khung RL đòi hỏi sự kết hợp giữa tính toán mô hình gắn với GPU và khối lượng công việc môi trường gắn với CPU.

Tích hợp và Trình diễn Công cụ Nâng cao

Một phần đáng kể của khối lượng công việc RL liên quan đến việc thực thi công cụ, chạy mã hoặc tương tác với môi trường sandbox. Nền tảng của Together AI hỗ trợ tự nhiên các yêu cầu này thông qua:

  • Together CodeSandbox: Môi trường MicroVM được thiết kế cho việc sử dụng công cụ, nhiệm vụ lập trình và mô phỏng.
  • Together Code Interpreter: Tạo điều kiện thực thi Python nhanh chóng, biệt lập phù hợp cho các chức năng phần thưởng dựa trên unit-test hoặc nhiệm vụ đánh giá mã.

Cả CodeSandbox và Code Interpreter đều tích hợp với dịch vụ môi trường OpenEnv và TorchForge, cho phép người thực hiện rollout sử dụng các công cụ này trong quá trình đào tạo.

Bản Demo Đào tạo BlackJack

Together AI đã phát hành một bản trình diễn về pipeline TorchForge RL chạy trên Instant Clusters của mình, tương tác với môi trường OpenEnv được lưu trữ trên Together CodeSandbox. Bản demo này, được điều chỉnh từ triển khai tham khảo của Meta, đào tạo mô hình Qwen 1.5B để chơi BlackJack sử dụng GRPO. Pipeline RL tích hợp máy chủ chính sách vLLM, môi trường BlackJack, mô hình tham chiếu, bộ đệm phát lại off-policy và trình đào tạo TorchTitan—được kết nối thông qua lưới actor của Monarch và sử dụng TorchStore để đồng bộ hóa trọng số.

Kho lưu trữ OpenEnv GRPO BlackJack bao gồm các manifest Kubernetes và script thiết lập. Việc triển khai và khởi tạo đào tạo được tối ưu hóa với các lệnh kubectl đơn giản, cho phép thử nghiệm với cấu hình mô hình và điều chỉnh siêu tham số GRPO.

Ngoài ra, một tích hợp độc lập bao bọc Code Interpreter của Together như một môi trường OpenEnv, cho phép các agent RL tương tác với Interpreter giống như bất kỳ môi trường nào khác. Tích hợp này cho phép các pipeline RL được áp dụng cho các nhiệm vụ đa dạng như lập trình và suy luận toán học.

Các bản trình diễn nhấn mạnh rằng việc đào tạo RL đa thành phần, phức tạp có thể được thực hiện trên Together AI Cloud một cách dễ dàng, tạo tiền đề cho một khung RL mở, linh hoạt trong hệ sinh thái PyTorch, có khả năng mở rộng trên Together AI Cloud.

Nguồn hình ảnh: Shutterstock

Source: https://blockchain.news/news/torchforge-rl-pipelines-operable-together-ai-cloud

Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ service@support.mexc.com để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.

Có thể bạn cũng thích