Can Differentiable Decision Trees Learn Interpretable Reward Functions?

要約

人間の意図や好みをモデル化する報酬関数を学習することへの関心が高まっています。
ただし、多くのフレームワークでは、表現力は豊かではあるものの、解釈が難しいブラックボックス学習手法が使用されています。
私たちは、低次元と高次元の両方の状態入力に対して微分可能決定木 (DDT) を使用して、好みから表現力豊かで解釈可能な報酬関数を学習するための新しいアプローチを提案し、評価します。
Cartpole、Visual Gridworld 環境、Atari ゲームでアルゴリズムを評価することで、DDT を使用して解釈可能な報酬関数を学習する実現可能性を調査し、議論します。
私たちは、学習した報酬関数のツリー構造が、報酬関数が人間の好みとどの程度一致しているかを判断するのに役立つという証拠を提供します。
学習された報酬 DDT を視覚化し、解釈可能な報酬関数を学習できるものの、ツリーの離散的な性質がテスト時の強化学習のパフォーマンスに悪影響を与えることがわかりました。
ただし、ソフト出力 (すべてのリーフ ノードの平均) を使用すると、大容量のディープ ニューラル ネットワークの報酬関数と比較した場合に競争力のあるパフォーマンスが得られるという証拠も示します。

要約(オリジナル)

There is an increasing interest in learning reward functions that model human intent and human preferences. However, many frameworks use blackbox learning methods that, while expressive, are difficult to interpret. We propose and evaluate a novel approach for learning expressive and interpretable reward functions from preferences using Differentiable Decision Trees (DDTs) for both low- and high-dimensional state inputs. We explore and discuss the viability of learning interpretable reward functions using DDTs by evaluating our algorithm on Cartpole, Visual Gridworld environments, and Atari games. We provide evidence that that the tree structure of our learned reward function is useful in determining the extent to which a reward function is aligned with human preferences. We visualize the learned reward DDTs and find that they are capable of learning interpretable reward functions but that the discrete nature of the trees hurts the performance of reinforcement learning at test time. However, we also show evidence that using soft outputs (averaged over all leaf nodes) results in competitive performance when compared with larger capacity deep neural network reward functions.

arxiv情報

著者 Akansha Kalra,Daniel S. Brown
発行日 2023-06-22 16:04:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク