要約
最近の研究では、対照的な言語イメージ前トレーニング(CLIP)フレームワークの下で訓練されたビジョン言語モデルには、本質的な社会的バイアスが含まれていることがわかりました。
この作業では、クリップモデルの上流のプリトレーニング要因と下流のパフォーマンスが本質的なバイアスにどのように関係しているかについて、最大の包括的な分析を提示します。
26のデータセットでトレーニングされ、55のアーキテクチャを使用して、さまざまなサイズでトレーニングされた131の一意のクリップモデルを研究し、26の定評のある単峰性およびクロスモーダルの原則的な埋め込み関連テストを使用して、各モデルのバイアスを評価します。
トレーニング前のデータセットの選択は、バイアスの最も重要な上流の予測因子であるのに対し、建築の変動は最小限の影響を与えることがわかります。
さらに、ダウンストリームモデルのパフォーマンスを向上させることを目的とした洗練されたフィルタリング技術を使用してキュレーションされたデータセットは、本質的なバイアスのレベルが高くなる傾向があります。
最後に、本質的なバイアスはしばしば下流のパフォーマンス($ 0.3 \ leq r \ leq 0.8 $)と大幅に相関していることが観察され、パフォーマンスに最適化されたモデルが表現バイアスを増幅することを不注意に学習することを示唆しています。
ユニモーダルアソシエーションテストとクロスモーダル関連テストの比較により、社会グループのバイアスはモダリティに大きく依存していることが明らかになりました。
私たちの調査結果は、モデル開発パイプライン全体で視覚言語モデルの固有のモデルバイアスに対処するには、より洗練された戦略が必要であることを意味します。
要約(オリジナル)
While recent work has found that vision-language models trained under the Contrastive Language Image Pre-training (CLIP) framework contain intrinsic social biases, the extent to which different upstream pre-training features of the framework relate to these biases, and hence how intrinsic bias and downstream performance are connected has been unclear. In this work, we present the largest comprehensive analysis to-date of how the upstream pre-training factors and downstream performance of CLIP models relate to their intrinsic biases. Studying 131 unique CLIP models, trained on 26 datasets, using 55 architectures, and in a variety of sizes, we evaluate bias in each model using 26 well-established unimodal and cross-modal principled Embedding Association Tests. We find that the choice of pre-training dataset is the most significant upstream predictor of bias, whereas architectural variations have minimal impact. Additionally, datasets curated using sophisticated filtering techniques aimed at enhancing downstream model performance tend to be associated with higher levels of intrinsic bias. Finally, we observe that intrinsic bias is often significantly correlated with downstream performance ($0.3 \leq r \leq 0.8$), suggesting that models optimized for performance inadvertently learn to amplify representational biases. Comparisons between unimodal and cross-modal association tests reveal that social group bias depends heavily on the modality. Our findings imply that more sophisticated strategies are needed to address intrinsic model bias for vision-language models across the entire model development pipeline.
arxiv情報
著者 | Kshitish Ghate,Isaac Slaughter,Kyra Wilson,Mona Diab,Aylin Caliskan |
発行日 | 2025-06-10 15:37:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google