A Typology for Exploring the Mitigation of Shortcut Behavior

要約

機械学習モデルがますます大規模になり、大規模でキュレーションされていない可能性のあるデータセットを使用して弱い教師下でトレーニングされるにつれて、学習のショートカットを軽減し、学習した知識が人間の知識と一致していることを保証するために、モデルを検査、対話、修正するためのメカニズムを確立することがますます重要になっています。
最近提案された XIL フレームワークはこの目的のために開発され、それぞれに個別の動機と方法論の詳細を備えたいくつかのそのような手法が導入されています。
この作業では、基本モジュールの共通セットを確立することにより、さまざまな XIL メソッドを 1 つの類型に統合します。
そうすることで、既存の、そして重要なことに、将来の XIL アプローチの原則に基づいた比較への道が開かれます。
さらに、XIL メソッドの全体的な能力を評価するための既存の尺度やベンチマークについて説明し、新しい尺度やベンチマークを紹介します。
類型論、測定値、ベンチマークを含むこの広範なツールボックスを考慮して、最後にいくつかの最近の XIL メソッドを方法論的および定量的に比較します。
私たちの評価では、すべての方法でモデルの修正が成功することが証明されています。
ただし、個々のベンチマーク タスクには顕著な違いがあり、将来の手法の開発においてこれらのベンチマークを統合するための貴重なアプリケーション関連の側面が明らかになりました。

要約(オリジナル)

As machine learning models become increasingly larger, trained weakly supervised on large, possibly uncurated data sets, it becomes increasingly important to establish mechanisms for inspecting, interacting, and revising models to mitigate learning shortcuts and guarantee their learned knowledge is aligned with human knowledge. The recently proposed XIL framework was developed for this purpose, and several such methods have been introduced, each with individual motivations and methodological details. In this work, we provide a unification of various XIL methods into a single typology by establishing a common set of basic modules. In doing so, we pave the way for a principled comparison of existing, but, importantly, also future XIL approaches. In addition, we discuss existing and introduce novel measures and benchmarks for evaluating the overall abilities of a XIL method. Given this extensive toolbox, including our typology, measures, and benchmarks, we finally compare several recent XIL methods methodologically and quantitatively. In our evaluations, all methods prove to revise a model successfully. However, we found remarkable differences in individual benchmark tasks, revealing valuable application-relevant aspects for integrating these benchmarks in developing future methods.

arxiv情報

著者 Felix Friedrich,Wolfgang Stammer,Patrick Schramowski,Kristian Kersting
発行日 2024-03-14 15:25:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG パーマリンク