ConceptDrift: Uncovering Biases through the Lens of Foundational Models

要約

データセットと事前トレーニングされたモデルには固有のバイアスが伴います。
ほとんどの方法は、人間とコンピューターによる半自動の検証で、誤って分類されたサンプルを分析することによってそれらを発見することに依存しています。
対照的に、我々は、基礎モデル上で学習された線形プローブの重みを分析する手法である ConceptDrift を提案します。
私たちは、クラスのテキスト表現の埋め込みから始まり、隠れたバイアスを明らかにする埋め込みに向かってドリフトしていく重み更新の軌跡を利用します。
これまでの研究とは異なり、このアプローチを使用すると、データセットから不要な相関関係を正確に特定でき、間違った予測に対して考えられる説明以上のものを提供できます。
私たちは、バイアス拡張プロンプトによりゼロショットのパフォーマンスを大幅に改善することにより、この方法の有効性を経験的に証明しています。
私たちの手法は単一のモダリティに限定されず、この作業では画像 (Waterbirds、CelebA、Nico++) とテキスト データセット (CivilComments) の両方を使って実験します。

要約(オリジナル)

Datasets and pre-trained models come with intrinsic biases. Most methods rely on spotting them by analysing misclassified samples, in a semi-automated human-computer validation. In contrast, we propose ConceptDrift, a method which analyzes the weights of a linear probe, learned on top a foundational model. We capitalize on the weight update trajectory, which starts from the embedding of the textual representation of the class, and proceeds to drift towards embeddings that disclose hidden biases. Different from prior work, with this approach we can pin-point unwanted correlations from a dataset, providing more than just possible explanations for the wrong predictions. We empirically prove the efficacy of our method, by significantly improving zero-shot performance with biased-augmented prompting. Our method is not bounded to a single modality, and we experiment in this work with both image (Waterbirds, CelebA, Nico++) and text datasets (CivilComments).

arxiv情報

著者 Cristian Daniel Păduraru,Antonio Bărbălau,Radu Filipescu,Andrei Liviu Nicolicioiu,Elena Burceanu
発行日 2024-10-24 17:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク