Interpretable Imitation Learning with Dynamic Causal Relations

要約

専門家のデモンストレーションを模倣することでエージェントのポリシーを学習する模倣学習は、医療制度や自動運転車などの多くのアプリケーションで有望な結果を示しています。
ただし、エージェントが学習した制御ポリシーを解釈するのは依然として困難な作業です。
困難は主に 2 つの側面から生じます。1) 模倣学習のエージェントは通常、ブラックボックス モデルで解釈可能性に欠けるディープ ニューラル ネットワークとして実装されます。
2) エージェントの意思決定の背後にある潜在的な因果メカニズムは、タイム ステップ全体を通じて静的なものではなく、軌跡に沿って変化する可能性があります。
ニューラル エージェントの透明性を高め、より良い解釈可能性を提供するために、ノードがアクション変数と状態変数、エッジが予測の背後にある因果関係を示す、有向非循環因果グラフの形式でキャプチャされた知識を公開することを提案します。
さらに、この因果発見プロセスが状態依存になるように設計し、潜在因果グラフのダイナミクスをモデル化できるようにします。
具体的には、グレンジャー因果関係の観点から因果関係の発見を行い、自己説明可能な模倣学習フレームワーク {\method} を提案します。
提案されたフレームワークは、動的因果発見モジュール、因果関係エンコード モジュール、予測モジュールの 3 つの部分で構成され、エンドツーエンドの方法でトレーニングされます。
モデルが学習されると、その決定の背後にある状態と行動変数の間の因果関係を取得し、モデルによって学習されたポリシーを明らかにすることができます。
合成データセットと現実世界のデータセットの両方に関する実験結果は、高い予測精度を維持しながら模倣学習の意思決定を理解するための動的因果グラフの学習において、提案された {\method} の有効性を示しています。

要約(オリジナル)

Imitation learning, which learns agent policy by mimicking expert demonstration, has shown promising results in many applications such as medical treatment regimes and self-driving vehicles. However, it remains a difficult task to interpret control policies learned by the agent. Difficulties mainly come from two aspects: 1) agents in imitation learning are usually implemented as deep neural networks, which are black-box models and lack interpretability; 2) the latent causal mechanism behind agents’ decisions may vary along the trajectory, rather than staying static throughout time steps. To increase transparency and offer better interpretability of the neural agent, we propose to expose its captured knowledge in the form of a directed acyclic causal graph, with nodes being action and state variables and edges denoting the causal relations behind predictions. Furthermore, we design this causal discovery process to be state-dependent, enabling it to model the dynamics in latent causal graphs. Concretely, we conduct causal discovery from the perspective of Granger causality and propose a self-explainable imitation learning framework, {\method}. The proposed framework is composed of three parts: a dynamic causal discovery module, a causality encoding module, and a prediction module, and is trained in an end-to-end manner. After the model is learned, we can obtain causal relations among states and action variables behind its decisions, exposing policies learned by it. Experimental results on both synthetic and real-world datasets demonstrate the effectiveness of the proposed {\method} in learning the dynamic causal graphs for understanding the decision-making of imitation learning meanwhile maintaining high prediction accuracy.

arxiv情報

著者 Tianxiang Zhao,Wenchao Yu,Suhang Wang,Lu Wang,Xiang Zhang,Yuncong Chen,Yanchi Liu,Wei Cheng,Haifeng Chen
発行日 2024-01-30 16:31:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク