Can Differentiable Decision Trees Learn Interpretable Reward Functions?

要約

人間の意図や好みをモデル化する報酬関数を学習することへの関心が高まっています。
ただし、多くのフレームワークでは、表現力は豊かではあるものの、解釈が難しいブラックボックス学習手法が使用されています。
私たちは、微分可能決定木 (DDT) を使用して、好みから表現力豊かで解釈可能な報酬関数を学習するための新しいアプローチを提案し、評価します。
Cartpole、Visual Gridworld 環境、Atari ゲームを含むいくつかのドメインにわたる私たちの実験は、学習した報酬関数のツリー構造が、報酬関数が人間の好みとどの程度一致しているかを決定するのに役立つという証拠を提供しました。
私たちは、報酬 DDT を使用すると、より大容量のディープ ニューラル ネットワークの報酬関数と比較した場合に、競争力のあるパフォーマンスが得られることを実験的に示しています。
また、報酬 DDT のソフト出力とハード (argmax) 出力の選択により、優れた RL パフォーマンスを確保するために高度に成形された報酬が必要である一方で、解釈可能性を提供するために単純で形状のない報酬も必要であるという間の緊張が明らかになることも観察されています。

要約(オリジナル)

There is an increasing interest in learning reward functions that model human intent and human preferences. However, many frameworks use blackbox learning methods that, while expressive, are difficult to interpret. We propose and evaluate a novel approach for learning expressive and interpretable reward functions from preferences using Differentiable Decision Trees (DDTs). Our experiments across several domains, including Cartpole, Visual Gridworld environments and Atari games, provide evidence that that the tree structure of our learned reward function is useful in determining the extent to which the reward function is aligned with human preferences. We experimentally demonstrate that using reward DDTs results in competitive performance when compared with larger capacity deep neural network reward functions. We also observe that the choice between soft and hard (argmax) output of reward DDT reveals a tension between wanting highly shaped rewards to ensure good RL performance, while also wanting simple, non-shaped rewards to afford interpretability.

arxiv情報

著者 Akansha Kalra,Daniel S. Brown
発行日 2023-06-26 16:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク