Low-Biased General Annotated Dataset Generation

要約

カテゴリ注釈付きの多数の手動収集画像からなる一般的な注釈付きデータセット(ImageNetなど)で基幹ネットワークを事前学習することは、下流の視覚タスクの汎化能力を向上させるために不可欠であることが証明されている。しかし、手動で収集された画像は、カテゴリやドメイン間で転送不可能なバイアスを示すことが多く、モデルの汎化能力の低下を引き起こす。この問題を軽減するために、我々はバイアスの少ない一般的な注釈付きデータセット生成フレームワーク(lbGen)を提示する。高価な手作業による収集の代わりに、カテゴリ注釈付きの低バイアスの画像を直接生成することを目指す。この目標を達成するために、言語によって定義されたバイアスの低い意味空間において画像を整列させるという点で、マルチモーダル基礎モデル(例えばCLIP)の利点を活用することを提案する。具体的には、敵対的学習的な方法で、全ての生成画像がターゲットデータセットに属する全てのカテゴリの意味的分布と一致することを強制するだけでなく、各生成画像がそのカテゴリ名の意味的記述と一致することも要求する、2レベルの意味的整列損失を開発する。さらに、既存の画像品質スコアリングモデルを、生成画像の品質を保持するための品質保証損失に変換する。これら2つの損失関数を活用することで、対象データセットに含まれる全てのカテゴリ名のみを入力として、事前に訓練された拡散モデルを微調整するだけで、偏りの少ない画像生成モデルを得ることができる。実験の結果、手動ラベル付きデータセットや他の合成データセットと比較して、我々の生成した低バイアスデータセットを利用することで、特に手動ラベル付きサンプルが少ないタスクにおいて、様々なタスクに渡って異なるバックボーンネットワークの安定した汎化能力向上につながることが確認された。

要約(オリジナル)

Pre-training backbone networks on a general annotated dataset (e.g., ImageNet) that comprises numerous manually collected images with category annotations has proven to be indispensable for enhancing the generalization capacity of downstream visual tasks. However, those manually collected images often exhibit bias, which is non-transferable across either categories or domains, thus causing the model’s generalization capacity degeneration. To mitigate this problem, we present an low-biased general annotated dataset generation framework (lbGen). Instead of expensive manual collection, we aim at directly generating low-biased images with category annotations. To achieve this goal, we propose to leverage the advantage of a multimodal foundation model (e.g., CLIP), in terms of aligning images in an low-biased semantic space defined by language. Specifically, we develop a bi-level semantic alignment loss, which not only forces all generated images to be consistent with the semantic distribution of all categories belonging to the target dataset in an adversarial learning manner, but also requires each generated image to match the semantic description of its category name. In addition, we further cast an existing image quality scoring model into a quality assurance loss to preserve the quality of the generated image. By leveraging these two loss functions, we can obtain an low-biased image generation model by simply fine-tuning a pre-trained diffusion model using only all category names in the target dataset as input. Experimental results confirm that, compared with the manually labeled dataset or other synthetic datasets, the utilization of our generated low-biased datasets leads to stable generalization capacity enhancement of different backbone networks across various tasks, especially in tasks where the manually labeled samples are scarce.

arxiv情報

著者 Dengyang Jiang,Haoyu Wang,Lei Zhang,Wei Wei,Guang Dai,Mengmeng Wang,Jingdong Wang,Yanning Zhang
発行日 2025-03-03 06:13:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク