WASP: A Weight-Space Approach to Detecting Learned Spuriousness

要約

機械学習モデルをトレーニングすることは非常に重要です。これにより、特定のタスクで各クラスを定義するものを明確に理解しています。
モデルのクラスの理解に影響を与える可能性のあるデータセットによって特徴付けられる偽の相関を特定することに専念する作品の合計がありますが、現在のすべてのアプローチはデータまたはエラー分析のみに依存しています。
つまり、検証またはトレーニングセットに掲載されているカウンターエクサムプルではまだ指摘されていないモデルで学んだ偽の相関を指摘することはできません。
この制限を超越する方法を提案し、モデルの予測の分析からモデルの重みの分析に焦点を切り替えます。これは、より洞察力に富んでいることが証明される決定の作成の背後にあるメカニズムです。
Spureasuretivesionse(WASP)を検出するための提案されている重量空間アプローチは、特定のデータセットで微調整されながら、さまざまな(偽の)相関をキャプチャするためにドリフトするため、基礎モデルの重量を分析することに依存しています。
以前の作品とは異なる方法で、私たちの方法(i)は、トレーニングや検証カウンターエクサムプルによって公開されていない場合でも、データセットによって特徴付けられる偽の相関を公開できることを実証します。
)Imagenet-1K分類子によって学んだ以前に未開発の偽の相関関係を明らかにすることができます。

要約(オリジナル)

It is of crucial importance to train machine learning models such that they clearly understand what defines each class in a given task. Though there is a sum of works dedicated to identifying the spurious correlations featured by a dataset that may impact the model’s understanding of the classes, all current approaches rely solely on data or error analysis. That is, they cannot point out spurious correlations learned by the model that are not already pointed out by the counterexamples featured in the validation or training sets. We propose a method that transcends this limitation, switching the focus from analyzing a model’s predictions to analyzing the model’s weights, the mechanism behind the making of the decisions, which proves to be more insightful. Our proposed Weight-space Approach to detecting Spuriousness (WASP) relies on analyzing the weights of foundation models as they drift towards capturing various (spurious) correlations while being fine-tuned on a given dataset. We demonstrate that different from previous works, our method (i) can expose spurious correlations featured by a dataset even when they are not exposed by training or validation counterexamples, (ii) it works for multiple modalities such as image and text, and (iii) it can uncover previously untapped spurious correlations learned by ImageNet-1k classifiers.

arxiv情報

著者 Cristian Daniel Păduraru,Antonio Bărbălau,Radu Filipescu,Andrei Liviu Nicolicioiu,Elena Burceanu
発行日 2025-02-13 17:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク