Use Perturbations when Learning from Explanations

要約

説明からの機械学習 (MLX) は、各入力に対して関連する特徴または無関係な特徴について人間が提供する説明を使用して、モデルの予測が正しい理由で正しいことを確認する学習アプローチです。
既存の MLX アプローチは、ローカル モデル解釈方法に依存しており、モデルと人間の説明を一致させるために強力なモデル スムージングが必要であり、次善のパフォーマンスにつながります。
私たちは MLX を堅牢性の問題として再構築し、人間の説明によって摂動を引き出すことができる低次元多様体を指定し、このアプローチがどのように強力なモデル平滑化の必要性を軽減するかを理論的および経験的に示します。
私たちは、堅牢性を実現するためのさまざまなアプローチを検討し、以前の MLX メソッドよりもパフォーマンスの向上につながります。
最後に、堅牢性と以前の MLX 手法を組み合わせて、合成ベンチマークと現実世界のベンチマークの両方で最先端の結果を得る方法を示します。

要約(オリジナル)

Machine learning from explanations (MLX) is an approach to learning that uses human-provided explanations of relevant or irrelevant features for each input to ensure that model predictions are right for the right reasons. Existing MLX approaches rely on local model interpretation methods and require strong model smoothing to align model and human explanations, leading to sub-optimal performance. We recast MLX as a robustness problem, where human explanations specify a lower dimensional manifold from which perturbations can be drawn, and show both theoretically and empirically how this approach alleviates the need for strong model smoothing. We consider various approaches to achieving robustness, leading to improved performance over prior MLX methods. Finally, we show how to combine robustness with an earlier MLX method, yielding state-of-the-art results on both synthetic and real-world benchmarks.

arxiv情報

著者 Juyeon Heo,Vihari Piratla,Matthew Wicker,Adrian Weller
発行日 2023-10-04 16:24:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク