A Typology for Exploring the Mitigation of Shortcut Behavior

要約

機械学習モデルがますます大きくなり、大規模な、場合によってはキュレーションされていないデータセットで訓練され、弱く教師が付けられるようになるにつれて、学習のショートカットを軽減し、学習した知識が人間の知識と一致していることを保証するために、モデルを検査、相互作用、および修正するためのメカニズムを確立することがますます重要になります。
最近提案された XIL フレームワークは、この目的のために開発されたものであり、いくつかのそのような方法が導入されており、それぞれに個別の動機と方法論の詳細があります。
この作業では、基本モジュールの共通セットを確立することにより、さまざまな XIL メソッドを 1 つの類型に統合します。
そうすることで、既存の、そして重要なことに、将来の XIL アプローチの原則に基づいた比較への道が開かれます。
さらに、XIL メソッドの全体的な能力を評価するための既存の測定値とベンチマークについて説明し、新しい測定値とベンチマークを紹介します。
類型論、尺度、ベンチマークを含むこの広範なツールボックスを考慮して、最終的にいくつかの最近の XIL メソッドを方法論的および定量的に比較します。
私たちの評価では、すべての方法がモデルの修正に成功することが証明されています。
ただし、個々のベンチマーク タスクには顕著な違いがあり、これらのベンチマークを将来の方法の開発に統合するための貴重なアプリケーション関連の側面が明らかになりました。

要約(オリジナル)

As machine learning models become increasingly larger, trained weakly supervised on large, possibly uncurated data sets, it becomes increasingly important to establish mechanisms for inspecting, interacting, and revising models to mitigate learning shortcuts and guarantee their learned knowledge is aligned with human knowledge. The recently proposed XIL framework was developed for this purpose, and several such methods have been introduced, each with individual motivations and methodological details. In this work, we provide a unification of various XIL methods into a single typology by establishing a common set of basic modules. In doing so, we pave the way for a principled comparison of existing, but, importantly, also future XIL approaches. In addition, we discuss existing and introduce novel measures and benchmarks for evaluating the overall abilities of a XIL method. Given this extensive toolbox, including our typology, measures, and benchmarks, we finally compare several recent XIL methods methodologically and quantitatively. In our evaluations, all methods prove to revise a model successfully. However, we found remarkable differences in individual benchmark tasks, revealing valuable application-relevant aspects for integrating these benchmarks in developing future methods.

arxiv情報

著者 Felix Friedrich,Wolfgang Stammer,Patrick Schramowski,Kristian Kersting
発行日 2023-02-24 11:46:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG パーマリンク