DiverGenは、セグメンテーションなどの生成的データ拡張のための多様性駆動型でスケーラブルな手法を提示します。DiverGenは、疎データに対する単純な補完としてアプローチする以前の研究とは対照的に、分布の不一致の観点からサンプル生成の影響を検証します。これは、多様な合成データがオーバーフィッティングを減少させ、学習可能なデータ空間を拡大する方法を示しています。DiverGenは、セグメンテーションなどの生成的データ拡張のための多様性駆動型でスケーラブルな手法を提示します。DiverGenは、疎データに対する単純な補完としてアプローチする以前の研究とは対照的に、分布の不一致の観点からサンプル生成の影響を検証します。これは、多様な合成データがオーバーフィッティングを減少させ、学習可能なデータ空間を拡大する方法を示しています。

DiverGenは大規模インスタンスセグメンテーショントレーニングをより効果的にします

:::info 著者:

(1) 樊成祥、浙江大学(中国)から同等の貢献;

(2) 朱牧之、浙江大学(中国)から同等の貢献;

(3) 陳浩、浙江大学、中国 (haochen.cad@zju.edu.cn);

(4) 劉陽、浙江大学、中国;

(5) 呉偉佳、浙江大学、中国;

(6) 張華琪、vivo Mobile Communication Co.;

(7) 沈春華、浙江大学、中国 (chunhuashen@zju.edu.cn).

:::

概要と1 はじめに

  1. 関連研究

  2. 提案するDiverGen

    3.1. データ分布の分析

    3.2. 生成データの多様性強化

    3.3. 生成パイプライン

  3. 実験

    4.1. 設定

    4.2. 主な結果

    4.3. アブレーション研究

  4. 結論、謝辞、参考文献

\ 付録

A. 実装の詳細

B. 可視化

概要

インスタンスセグメンテーションはデータを大量に必要とし、モデル容量が増加するにつれて、精度向上のためにデータ規模が重要になります。現在のインスタンスセグメンテーションデータセットのほとんどは、コストのかかる手動アノテーションを必要とし、データ規模が制限されています。このようなデータで訓練されたモデルは、特に希少カテゴリにおいて、トレーニングセットに過学習しやすくなります。最近の研究では、データ拡張のための合成データセットを作成するために生成モデルを活用することが試みられていますが、これらのアプローチは生成モデルの可能性を効率的に活用していません。

\ これらの問題に対処するため、私たちはデータ拡張のための生成データセットを構築するためのより効率的な戦略であるDiverGenを紹介します。まず、分布の不一致の観点から生成データの役割について説明します。モデルが学習する分布に対する異なるデータの影響を調査します。生成データはモデルが学習できるデータ分布を拡大し、過学習を軽減できると主張します。さらに、生成データの多様性がモデルのパフォーマンス向上に重要であることを発見し、カテゴリの多様性、プロンプトの多様性、生成モデルの多様性などの様々な戦略を通じてそれを強化します。これらの戦略により、モデルのパフォーマンス向上の傾向を維持しながら、データを数百万規模にスケールアップすることができます。LVISデータセットでは、DiverGenは強力なモデルX-Pasteを大幅に上回り、全カテゴリで+1.1ボックスAPと+1.1マスクAP、希少カテゴリでは+1.9ボックスAPと+2.5マスクAPを達成しています。私たちのコードはhttps://github.com/aim-uofa/DiverGenで入手可能です。

1. はじめに

インスタンスセグメンテーション[2, 4, 9]はコンピュータビジョンにおける挑戦的なタスクの一つであり、画像内のインスタンスのマスクとカテゴリの予測を必要とし、多くの視覚アプリケーションの基盤となっています。モデルの学習能力が向上するにつれて、トレーニングデータの需要が増加しています。しかし、インスタンスセグメンテーション用の現在のデータセットは手動アノテーションに大きく依存しており、時間がかかりコストがかかるため、データセット規模はモデルのトレーニングニーズを満たすことができません。最近、自動アノテーションデータセットSA-1B[12]が登場しましたが、カテゴリアノテーションが欠けており、インスタンスセグメンテーションの要件を満たしていません。一方、生成モデルの継続的な発展により、生成されたサンプルの制御性とリアリズムが大幅に向上しています。例えば、最近のtext2image拡散モデル[22, 24]は入力プロンプトに対応する高品質な画像を生成できます。そのため、現在の手法[27, 28, 34]は、実データセット上でのモデルのトレーニングを補完し、モデルのパフォーマンスを向上させるために、データセットを生成するための生成モデルを使用しています。現在の手法は生成データがモデルのパフォーマンスを向上させるための様々な戦略を提案していますが、まだいくつかの制限があります:1)既存の手法は生成モデルの可能性を十分に活用していません。まず、一部の手法[34]は生成データを使用するだけでなく、インターネットから画像をクロールする必要があり、大規模なデータを取得することは非常に困難です。また、インターネットからクロールされたデータの内容は制御不能であり、追加のチェックが必要です。第二に、既存の手法は生成モデルの制御性を十分に活用していません。現在の手法は、プロンプトを構築するために手動で設計されたテンプレートを採用することが多く、生成モデルの潜在的な出力を制限しています。2)既存の手法[27, 28]は、実世界のデータと生成データの間の不一致を考慮せずに、クラスの不均衡やデータの不足の観点から生成データの役割を説明することが多いです。さらに、これらの手法は通常、実サンプルの数が限られたシナリオでのみモデルのパフォーマンス向上を示しており、LVIS[8]のような既存の大規模な実データセットに対する生成データの有効性は十分に調査されていません。

\ 本論文では、まず分布の不一致の観点から生成データの役割を探求し、2つの主要な質問に取り組みます:1)なぜ生成データ拡張がモデルのパフォーマンスを向上させるのか? 2)どのタイプの生成データがモデルのパフォーマンス向上に有益か? まず、限られた実トレーニングデータのモデル学習分布と実世界のデータの分布の間に不一致が存在することを発見しました。データを可視化し、実世界のデータと比較して、生成データはモデルが学習できるデータ分布を拡大できることを発見しました。さらに、生成データを追加する役割は、実トレーニングデータのバイアスを軽減し、トレーニングデータへの過学習を効果的に緩和することであることを発見しました。第二に、生成データの分布と実世界のデータ分布の間にも不一致があることを発見しました。これらの不一致が適切に処理されない場合、生成モデルの可能性を十分に活用することはできません。いくつかの実験を行うことで、多様な生成データを使用することでモデルがこれらの不一致にうまく適応し、モデルのパフォーマンスを向上させることができることを発見しました。

\ 上記の分析に基づいて、データ多様性を強化するための効率的な戦略、すなわち生成データ多様性強化を提案します。カテゴリの多様性、プロンプトの多様性、生成モデルの多様性の観点からデータ多様性を増加させるための様々な多様性強化戦略を設計します。カテゴリの多様性については、すべてのカテゴリをカバーする生成データで訓練されたモデルが、部分的なカテゴリで訓練されたモデルよりも分布の不一致に適応することを観察しました。そのため、LVIS[8]からのカテゴリだけでなく、ImageNet-1K[23]からの追加カテゴリも導入し、データ生成におけるカテゴリの多様性を強化し、分布の不一致に対するモデルの適応性を強化します。プロンプトの多様性については、生成データセットの規模が増加するにつれて、手動で設計されたプロンプトは対応するレベルにスケールアップできず、生成モデルからの出力画像の多様性が制限されることを発見しました。そこで、ChatGPTのような大規模言語モデルをプロンプト生成に使用するための多様なプロンプト生成戦略のセットを設計し、制約の下で最大限に多様なプロンプトを出力するよう大規模言語モデルに要求します。手動で設計されたプロンプトとChatGPTが設計したプロンプトを組み合わせることで、プロンプトの多様性を効果的に豊かにし、生成データの多様性をさらに向上させます。生成モデルの多様性については、異なる生成モデルからのデータも分布の不一致を示すことを発見しました。トレーニング中に異なる生成モデルからのデータにモデルを露出させることで、異なる分布への適応性を高めることができます。そのため、Stable Diffusion[22]とDeepFloyd-IF[24]を使用して、すべてのカテゴリに対して別々に画像を生成し、トレーニング中に2種類のデータを混合してデータの多様性を高めます。

\ 同時に、データ生成ワークフローを最適化し、インスタンス生成、インスタンスアノテーション、インスタンスフィルタリング、インスタンス拡張からなる4段階の生成パイプラインを提案します。インスタンス生成段階では、提案した生成データ多様性強化を採用してデータ多様性を高め、多様な生データを生成します。インスタンスアノテーション段階では、SAM-backgroundと呼ばれるアノテーション戦略を導入します。この戦略は、SAM[12]への入力プロンプトとして背景ポイントを使用することで高品質なアノテーションを取得し、生データのアノテーションを取得します。インスタンスフィルタリング段階では、CLIP間類似度と呼ばれるメトリックを導入します。CLIP[21]画像エンコーダを利用して、生成データと実データから埋め込みを抽出し、それらの類似性を計算します。類似性が低いほど、データ品質が低いことを示します。フィルタリング後、最終的な生成データセットを取得します。インスタンス拡張段階では、インスタンスペースト戦略[34]を使用して、生成データに対するモデルの学習効率を高めます。

\ 実験により、設計したデータ多様性戦略がモデルのパフォーマンスを効果的に向上させ、データ規模が百万レベルに増加してもパフォーマンス向上の傾向を維持できることが示され、データ拡張のための大規模生成データが可能になります。LVISデータセットでは、DiverGenは強力なモデルX-Paste[34]を大幅に上回り、全カテゴリで+1.1ボックスAP[8]と+1.1マスクAP、希少カテゴリでは+1.9ボックスAPと+2.5マスクAPを達成しています。

\ 要約すると、私たちの主な貢献は以下の通りです:

\ • 分布の不一致の観点から生成データの役割を説明します。生成データはモデルが学習できるデータ分布を拡大し、トレーニングセットへの過学習を軽減し、生成データの多様性がモデルのパフォーマンス向上に重要であることを発見しました。

\ • カテゴリの多様性、プロンプトの多様性、生成モデルの多様性の観点からデータ多様性を増加させるための生成データ多様性強化戦略を提案します。データ多様性を強化することで、モデルのパフォーマンス向上の傾向を維持しながら、データを数百万規模にスケール

市場の機会
Moonveil ロゴ
Moonveil価格(MORE)
$0.002321
$0.002321$0.002321
+0.47%
USD
Moonveil (MORE) ライブ価格チャート
免責事項:このサイトに転載されている記事は、公開プラットフォームから引用されており、情報提供のみを目的としています。MEXCの見解を必ずしも反映するものではありません。すべての権利は原著者に帰属します。コンテンツが第三者の権利を侵害していると思われる場合は、削除を依頼するために service@support.mexc.com までご連絡ください。MEXCは、コンテンツの正確性、完全性、適時性について一切保証せず、提供された情報に基づいて行われたいかなる行動についても責任を負いません。本コンテンツは、財務、法律、その他の専門的なアドバイスを構成するものではなく、MEXCによる推奨または支持と見なされるべきではありません。