Decomposing and Editing Predictions by Modeling Model Computation

要約

機械学習モデルの内部計算はどのようにして入力を予測に変換するのでしょうか?
このペーパーでは、この問題に対処することを目的としたコンポーネント モデリングと呼ばれるタスクを紹介します。
コンポーネント モデリングの目標は、ML モデルの予測をそのコンポーネント、つまりモデル計算の「構成要素」である単純な関数 (畳み込みフィルター、アテンション ヘッドなど) の観点から分解することです。
このタスクの特殊なケースであるコンポーネントの帰属に焦点を当てます。このタスクの目的は、特定の予測に対する個々のコンポーネントの反事実的な影響を推定することです。
次に、コンポーネントの属性を推定するためのスケーラブルなアルゴリズムである COAR を紹介します。
私たちはモデル、データセット、モダリティ全体でその有効性を実証します。
最後に、COAR で推定されたコンポーネントの属性により、5 つのタスクにわたってモデル編集が直接可能になることを示します。つまり、モデル エラーの修正、特定のクラスの「忘れ」、サブ母集団の堅牢性の向上、バックドア攻撃の局所化、タイポグラフィ攻撃に対する堅牢性の向上です。
COAR のコードは https://github.com/MadryLab/modelcomponents で提供されています。

要約(オリジナル)

How does the internal computation of a machine learning model transform inputs into predictions? In this paper, we introduce a task called component modeling that aims to address this question. The goal of component modeling is to decompose an ML model’s prediction in terms of its components — simple functions (e.g., convolution filters, attention heads) that are the ‘building blocks’ of model computation. We focus on a special case of this task, component attribution, where the goal is to estimate the counterfactual impact of individual components on a given prediction. We then present COAR, a scalable algorithm for estimating component attributions; we demonstrate its effectiveness across models, datasets, and modalities. Finally, we show that component attributions estimated with COAR directly enable model editing across five tasks, namely: fixing model errors, “forgetting” specific classes, boosting subpopulation robustness, localizing backdoor attacks, and improving robustness to typographic attacks. We provide code for COAR at https://github.com/MadryLab/modelcomponents .

arxiv情報

著者 Harshay Shah,Andrew Ilyas,Aleksander Madry
発行日 2024-04-17 16:28:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク