Use Perturbations when Learning from Explanations

要約

説明からの機械学習(MLX)は、モデルの予測が正しい理由によって正しいことを保証するために、各入力に関連する、または関連しない特徴について、人間が提供する説明を使用する学習へのアプローチである。既存のMLXアプローチは、局所的なモデル解釈手法に依存しており、モデルと人間の説明を整合させるために強力なモデル平滑化を必要とし、最適なパフォーマンスには至らない。我々は、MLXをロバスト性の問題として捉え直し、人間による説明が、摂動が引き出せるような低次元の多様体を指定することで、このアプローチがいかに強力なモデル平滑化の必要性を軽減するかを、理論的にも経験的にも示す。ロバスト性を実現するための様々なアプローチを検討し、先行するMLX手法よりも性能が向上することを示す。最後に、ロバスト性と先行するMLX法を組み合わせる方法を示し、合成ベンチマークと実世界ベンチマークの両方で最先端の結果を得る。

要約(オリジナル)

Machine learning from explanations (MLX) is an approach to learning that uses human-provided explanations of relevant or irrelevant features for each input to ensure that model predictions are right for the right reasons. Existing MLX approaches rely on local model interpretation methods and require strong model smoothing to align model and human explanations, leading to sub-optimal performance. We recast MLX as a robustness problem, where human explanations specify a lower dimensional manifold from which perturbations can be drawn, and show both theoretically and empirically how this approach alleviates the need for strong model smoothing. We consider various approaches to achieving robustness, leading to improved performance over prior MLX methods. Finally, we show how to combine robustness with an earlier MLX method, yielding state-of-the-art results on both synthetic and real-world benchmarks.

arxiv情報

著者 Juyeon Heo,Vihari Piratla,Matthew Wicker,Adrian Weller
発行日 2023-12-01 14:03:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク