要約
Webから事前に訓練されたモデルをダウンロードする人は、そのバイアスに注意する必要があります。
バイアス識別のための既存のアプローチは、関心のあるタスクのラベルを含むデータセットに依存しています。これは、非専門家がアクセスできない、または収集するために必要なリソースを持たない場合があります。これにより、モデルバイアスを特定できるタスクの数が大幅に制限されます。
この作業では、分類器からバイアス(C2B)を提示します。これは、ラベル付きデータにアクセスせずに機能する最初のバイアス発見フレームワークです。ターゲット分類モデルのバイアスを識別するための分類タスクのテキストの説明のみに依存しています。
この説明は、バイアス提案と、タスク固有のターゲットラベルと一緒にバイアスを描いた対応するキャプションを生成するために、大規模な言語モデルに供給されます。
検索モデルは、これらのキャプションの画像を収集し、モデルW.R.Tの精度を評価するために使用されます。
与えられたバイアス。
C2Bはトレーニングなしで、注釈を必要とせず、バイアスのリストに制約がなく、分類タスクで事前に訓練されたモデルに適用できます。
2つの公開されたデータセットでの実験は、C2Bが元のデータセットのバイアスを超えてバイアスを発見し、タスク固有の注釈に依存する最近の最先端のバイアス検出ベースラインを上回ることを示しており、タスクに拡大していない監視されていないバイアス検出に対処するための有望な第一歩です。
要約(オリジナル)
A person downloading a pre-trained model from the web should be aware of its biases. Existing approaches for bias identification rely on datasets containing labels for the task of interest, something that a non-expert may not have access to, or may not have the necessary resources to collect: this greatly limits the number of tasks where model biases can be identified. In this work, we present Classifier-to-Bias (C2B), the first bias discovery framework that works without access to any labeled data: it only relies on a textual description of the classification task to identify biases in the target classification model. This description is fed to a large language model to generate bias proposals and corresponding captions depicting biases together with task-specific target labels. A retrieval model collects images for those captions, which are then used to assess the accuracy of the model w.r.t. the given biases. C2B is training-free, does not require any annotations, has no constraints on the list of biases, and can be applied to any pre-trained model on any classification task. Experiments on two publicly available datasets show that C2B discovers biases beyond those of the original datasets and outperforms a recent state-of-the-art bias detection baseline that relies on task-specific annotations, being a promising first step toward addressing task-agnostic unsupervised bias detection.
arxiv情報
著者 | Quentin Guimard,Moreno D’Incà,Massimiliano Mancini,Elisa Ricci |
発行日 | 2025-04-29 16:19:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google