:::info Authors:
(1) Chengxiang Fan, với sự đóng góp ngang nhau từ Đại học Zhejiang, Trung Quốc;
(2) Muzhi Zhu, với sự đóng góp ngang nhau từ Đại học Zhejiang, Trung Quốc;
(3) Hao Chen, Đại học Zhejiang, Trung Quốc (haochen.cad@zju.edu.cn);
(4) Yang Liu, Đại học Zhejiang, Trung Quốc;
(5) Weijia Wu, Đại học Zhejiang, Trung Quốc;
(6) Huaqi Zhang, vivo Mobile Communication Co..
(7) Chunhua Shen, Đại học Zhejiang, Trung Quốc (chunhuashen@zju.edu.cn).
:::
Tóm tắt và 1 Giới thiệu
Công trình liên quan
DiverGen đề xuất của chúng tôi
3.1. Phân tích phân phối dữ liệu
3.2. Tăng cường đa dạng dữ liệu tạo sinh
3.3. Quy trình tạo sinh
Thực nghiệm
4.1. Cài đặt
4.2. Kết quả chính
4.3. Nghiên cứu loại trừ
Kết luận, Lời cảm ơn và Tài liệu tham khảo
\ Phụ lục
A. Chi tiết triển khai
B. Trực quan hóa
Phân đoạn đối tượng đòi hỏi nhiều dữ liệu, và khi năng lực mô hình tăng lên, quy mô dữ liệu trở nên quan trọng để cải thiện độ chính xác. Hầu hết các bộ dữ liệu phân đoạn đối tượng hiện nay đòi hỏi chú thích thủ công tốn kém, hạn chế quy mô dữ liệu. Các mô hình được đào tạo trên dữ liệu như vậy dễ bị overfitting trên tập huấn luyện, đặc biệt là đối với các danh mục hiếm. Mặc dù các công trình gần đây đã đi sâu vào khai thác các mô hình tạo sinh để tạo ra bộ dữ liệu tổng hợp cho việc tăng cường dữ liệu, những phương pháp này không khai thác hiệu quả toàn bộ tiềm năng của các mô hình tạo sinh.
\ Để giải quyết những vấn đề này, chúng tôi giới thiệu một chiến lược hiệu quả hơn để xây dựng bộ dữ liệu tạo sinh cho việc tăng cường dữ liệu, gọi là DiverGen. Đầu tiên, chúng tôi cung cấp một giải thích về vai trò của dữ liệu tạo sinh từ góc độ sự khác biệt phân phối. Chúng tôi nghiên cứu tác động của các dữ liệu khác nhau đến phân phối được học bởi mô hình. Chúng tôi cho rằng dữ liệu tạo sinh có thể mở rộng phân phối dữ liệu mà mô hình có thể học, từ đó giảm thiểu overfitting. Ngoài ra, chúng tôi nhận thấy rằng tính đa dạng của dữ liệu tạo sinh là rất quan trọng để cải thiện hiệu suất mô hình và tăng cường nó thông qua các chiến lược khác nhau, bao gồm đa dạng danh mục, đa dạng prompt và đa dạng mô hình tạo sinh. Với những chiến lược này, chúng tôi có thể mở rộng dữ liệu lên đến hàng triệu trong khi vẫn duy trì xu hướng cải thiện hiệu suất mô hình. Trên bộ dữ liệu LVIS, DiverGen vượt trội đáng kể so với mô hình mạnh X-Paste, đạt được +1,1 box AP và +1,1 mask AP trên tất cả các danh mục, và +1,9 box AP và +2,5 mask AP cho các danh mục hiếm. Mã nguồn của chúng tôi có sẵn tại https://github.com/aim-uofa/DiverGen.
Phân đoạn đối tượng [2, 4, 9] là một trong những nhiệm vụ thách thức trong thị giác máy tính, đòi hỏi dự đoán mặt nạ và danh mục cho các đối tượng trong một hình ảnh, đóng vai trò nền tảng cho nhiều ứng dụng thị giác. Khi khả năng học của mô hình được cải thiện, nhu cầu về dữ liệu đào tạo tăng lên. Tuy nhiên, các bộ dữ liệu hiện tại cho phân đoạn đối tượng phụ thuộc nhiều vào chú thích thủ công, tốn thời gian và chi phí, và quy mô bộ dữ liệu không thể đáp ứng nhu cầu đào tạo của các mô hình. Mặc dù gần đây đã xuất hiện bộ dữ liệu được chú thích tự động SA-1B [12], nhưng nó thiếu chú thích danh mục, không đáp ứng được yêu cầu của phân đoạn đối tượng. Trong khi đó, sự phát triển liên tục của mô hình tạo sinh đã cải thiện đáng kể khả năng kiểm soát và tính thực tế của các mẫu được tạo ra. Ví dụ, mô hình khuếch tán text2image gần đây [22, 24] có thể tạo ra hình ảnh chất lượng cao tương ứng với các prompt đầu vào. Do đó, các phương pháp hiện tại [27, 28, 34] sử dụng các mô hình tạo sinh để tăng cường dữ liệu bằng cách tạo ra các bộ dữ liệu để bổ sung cho việc đào tạo các mô hình trên các bộ dữ liệu thực và cải thiện hiệu suất mô hình. Mặc dù các phương pháp hiện tại đã đề xuất nhiều chiến lược khác nhau để cho phép dữ liệu tạo sinh thúc đẩy hiệu suất mô hình, vẫn còn một số hạn chế: 1) Các phương pháp hiện tại chưa khai thác hết tiềm năng của các mô hình tạo sinh. Đầu tiên, một số phương pháp [34] không chỉ sử dụng dữ liệu tạo sinh mà còn cần thu thập hình ảnh từ internet, điều này gây khó khăn đáng kể để có được dữ liệu quy mô lớn. Đồng thời, nội dung của dữ liệu thu thập từ internet không thể kiểm soát được và cần kiểm tra thêm. Thứ hai, các phương pháp hiện tại không sử dụng đầy đủ khả năng kiểm soát của các mô hình tạo sinh. Các phương pháp hiện tại thường áp dụng các mẫu được thiết kế thủ công để xây dựng prompt, hạn chế đầu ra tiềm năng của các mô hình tạo sinh. 2) Các phương pháp hiện tại [27, 28] thường giải thích vai trò của dữ liệu tạo sinh từ góc độ mất cân bằng lớp hoặc khan hiếm dữ liệu, mà không xem xét sự khác biệt giữa dữ liệu thế giới thực và dữ liệu tạo sinh. Hơn nữa, các phương pháp này thường chỉ cải thiện hiệu suất mô hình trong các tình huống có số lượng mẫu thực hạn chế, và hiệu quả của dữ liệu tạo sinh trên các bộ dữ liệu thực quy mô lớn hiện có, như LVIS [8], chưa được nghiên cứu kỹ lưỡng.
\ Trong bài báo này, chúng tôi đầu tiên khám phá vai trò của dữ liệu tạo sinh từ góc độ sự khác biệt phân phối, giải quyết hai câu hỏi chính: 1) Tại sao tăng cường dữ liệu tạo sinh nâng cao hiệu suất mô hình? 2) Loại dữ liệu tạo sinh nào có lợi cho việc cải thiện hiệu suất mô hình? Đầu tiên, chúng tôi nhận thấy rằng có sự khác biệt giữa phân phối được học bởi mô hình từ dữ liệu đào tạo thực hạn chế và phân phối của dữ liệu thế giới thực. Chúng tôi trực quan hóa dữ liệu và nhận thấy rằng so với dữ liệu thế giới thực, dữ liệu tạo sinh có thể mở rộng phân phối dữ liệu mà mô hình có thể học. Hơn nữa, chúng tôi nhận thấy rằng vai trò của việc thêm dữ liệu tạo sinh là để giảm thiểu sự thiên lệch của dữ liệu đào tạo thực, giảm hiệu quả overfitting dữ liệu đào tạo. Thứ hai, chúng tôi nhận thấy rằng cũng có sự khác biệt giữa phân phối của dữ liệu tạo sinh và phân phối dữ liệu thế giới thực. Nếu những sự khác biệt này không được xử lý đúng cách, tiềm năng đầy đủ của mô hình tạo sinh không thể được sử dụng. Bằng cách tiến hành một số thí nghiệm, chúng tôi nhận thấy rằng việc sử dụng dữ liệu tạo sinh đa dạng cho phép các mô hình thích nghi tốt hơn với những sự khác biệt này, cải thiện hiệu suất mô hình.
\ Dựa trên phân tích trên, chúng tôi đề xuất một chiến lược hiệu quả để tăng cường tính đa dạng của dữ liệu, cụ thể là Tăng cường đa dạng dữ liệu tạo sinh. Chúng tôi thiết kế các chiến lược tăng cường đa dạng khác nhau để tăng tính đa dạng của dữ liệu từ góc độ đa dạng danh mục, đa dạng prompt và đa dạng mô hình tạo sinh. Đối với đa dạng danh mục, chúng tôi quan sát thấy rằng các mô hình được đào tạo với dữ liệu tạo sinh bao gồm tất cả các danh mục thích nghi tốt hơn với sự khác biệt phân phối so với các mô hình được đào tạo với các danh mục một phần. Do đó, chúng tôi giới thiệu không chỉ các danh mục từ LVIS [8] mà còn các danh mục bổ sung từ ImageNet-1K [23] để tăng cường tính đa dạng danh mục trong việc tạo dữ liệu, từ đó củng cố khả năng thích ứng của mô hình với sự khác biệt phân phối. Đối với đa dạng prompt, chúng tôi nhận thấy rằng khi quy mô của bộ dữ liệu tạo sinh tăng lên, các prompt được thiết kế thủ công không thể mở rộng đến mức tương ứng, hạn chế tính đa dạng của hình ảnh đầu ra từ mô hình tạo sinh. Do đó, chúng tôi thiết kế một tập hợp các chiến lược tạo prompt đa dạng để sử dụng các mô hình ngôn ngữ lớn, như ChatGPT, để tạo prompt, yêu cầu các mô hình ngôn ngữ lớn đưa ra các prompt đa dạng tối đa trong các ràng buộc. Bằng cách kết hợp các prompt được thiết kế thủ công


