CLIP the Bias: How Useful is Balancing Data in Multimodal Learning?

要約

私たちは、対照的言語イメージ事前学習 (CLIP) におけるバイアスを軽減するためのデータバランシングの有効性を研究し、強みと限界の領域を特定します。
まず、CLIP モデルは社会の固定観念を誤って吸収する可能性があるという以前の結論を再確認します。
これに対抗するために、マルチモーダル モーメント マッチング (M4) と呼ばれる新しいアルゴリズムを提案します。このアルゴリズムは、マルチモーダル データの表現バイアスと関連バイアス (つまり、1 次統計と 2 次統計) の両方を軽減するように設計されています。
M4を使用して、モデル、表現、データサイズなどのさまざまな要素を考慮して詳細な分析を実行します。
私たちの研究では、CLIP がどのようにバイアスを学習し、学習から解放するかという動的な性質も調査しています。
特に、微調整は表現バイアスに対抗するのに効果的ですが、関連付けバイアスに対してはその影響が減少することがわかりました。
また、データ バランシングは品質にさまざまな影響を及ぼします。分類は向上する傾向がありますが、検索に悪影響を与える可能性があります。
興味深いことに、データとアーキテクチャの改善により、データのバランスによるパフォーマンスへの悪影響が軽減されているようです。
例えば
データ品質フィルターを使用して M4 を SigLIP-B/16 に適用すると、COCO 画像からテキストへの取得 @5 が 86% (データ バランシングなし) から 87% に向上し、ImageNet 0 ショット分類が 77% から 77.5% に向上します。
最後に、マルチモーダル システムにおけるデータ バランシングの有効性を向上させるための推奨事項で締めくくります。

要約(オリジナル)

We study the effectiveness of data-balancing for mitigating biases in contrastive language-image pretraining (CLIP), identifying areas of strength and limitation. First, we reaffirm prior conclusions that CLIP models can inadvertently absorb societal stereotypes. To counter this, we present a novel algorithm, called Multi-Modal Moment Matching (M4), designed to reduce both representation and association biases (i.e. in first- and second-order statistics) in multimodal data. We use M4 to conduct an in-depth analysis taking into account various factors, such as the model, representation, and data size. Our study also explores the dynamic nature of how CLIP learns and unlearns biases. In particular, we find that fine-tuning is effective in countering representation biases, though its impact diminishes for association biases. Also, data balancing has a mixed impact on quality: it tends to improve classification but can hurt retrieval. Interestingly, data and architectural improvements seem to mitigate the negative impact of data balancing on performance; e.g. applying M4 to SigLIP-B/16 with data quality filters improves COCO image-to-text retrieval @5 from 86% (without data balancing) to 87% and ImageNet 0-shot classification from 77% to 77.5%! Finally, we conclude with recommendations for improving the efficacy of data balancing in multimodal systems.

arxiv情報

著者 Ibrahim Alabdulmohsin,Xiao Wang,Andreas Steiner,Priya Goyal,Alexander D’Amour,Xiaohua Zhai
発行日 2024-03-07 14:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク