Learning by Self-Explaining

要約

人工知能 (AI) 研究には、生物学、特に人間の知能の発見からインスピレーションを得てきた長い実績があります。
主に説明をモデル検査の手段として扱う現在の AI 研究とは対照的に、人間の心理学からやや無視されている発見は、エージェントの学習プロセスにおける自己説明の利点です。
これを動機として、私たちは Learning by Self-Explaining (LSX) と呼ばれる新しい学習パラダイムを導入します。
基礎となる考え方は、学習モジュール (学習者) が基本タスクを実行するというものです。
画像を分類し、その決定に対する説明を提供します。
次に、内部の批評モジュールが、元のタスクを考慮してこれらの説明の品質を評価します。
最後に、学習者は批評家のフィードバックによって改良され、必要に応じてループが繰り返されます。
この背後にある直観は、批評家がそれぞれの説明を与えられて同じタスクを実行できる場合、その説明は「良い」とみなされるということです。
多くの実装可能性にもかかわらず、LSX インスタンス化の構造は、Fit、Explain、Reflect、Revise として識別される 4 つの学習モジュールに基づいて分類できます。
私たちの作業では、2 つの異なる学習者モデルに対して LSX の個別のインスタンス化を提供し、それぞれがさまざまな LSX コンポーネントの異なる選択肢を示しています。
私たちはこれらをいくつかのデータセットで幅広く評価し、自己説明による学習が、特に小規模データ領域において AI モデルの一般化能力を高めるだけでなく、交絡因子の影響を軽減するのに役立ち、さらに多くのタスクを引き起こすことを示します。
具体的かつ忠実なモデルの説明。
全体として、私たちの結果は、AI モデルの学習段階における自己説明の可能性の実験的証拠を提供します。

要約(オリジナル)

Artificial intelligence (AI) research has a long track record of drawing inspirations from findings from biology, in particular human intelligence. In contrast to current AI research that mainly treats explanations as a means for model inspection, a somewhat neglected finding from human psychology is the benefit of self-explaining in an agents’ learning process. Motivated by this, we introduce a novel learning paradigm, termed Learning by Self-Explaining (LSX). The underlying idea is that a learning module (learner) performs a base task, e.g. image classification, and provides explanations to its decisions. An internal critic module next evaluates the quality of these explanations given the original task. Finally, the learner is refined with the critic’s feedback and the loop is repeated as required. The intuition behind this is that an explanation is considered ‘good’ if the critic can perform the same task given the respective explanation. Despite many implementation possibilities the structure of any LSX instantiation can be taxonomized based on four learning modules which we identify as: Fit, Explain, Reflect and Revise. In our work, we provide distinct instantiations of LSX for two different learner models, each illustrating different choices for the various LSX components. We broadly evaluate these on several datasets and show that Learning by Self-Explaining not only boosts the generalization abilities of AI models, particularly in small-data regimes, but also aids in mitigating the influence of confounding factors, as well as leading to more task specific and faithful model explanations. Overall, our results provide experimental evidence of the potential of self-explaining within the learning phase of an AI model.

arxiv情報

著者 Wolfgang Stammer,Felix Friedrich,David Steinmann,Hikaru Shindo,Kristian Kersting
発行日 2023-09-15 13:41:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク