Optimizing Interpretable Decision Tree Policies for Reinforcement Learning

要約

ディープラーニングを活用した強化学習技術は、近年大幅な進歩を遂げています。
ただし、ニューラル ネットワークは複雑であるため、実践者はその動作を理解することができません。
デシジョン ツリーは、その固有の解釈可能性により教師あり学習においてますます注目を集めており、モデラーは学習後の正確な予測プロセスを理解できるようになります。
この論文では、強化学習設定においてニューラル ネットワークを置き換えるために解釈可能な決定木ポリシーを最適化する問題について考察します。
これまでの研究では、ツリー構造を緩和してツリーの葉のみの最適化に限定するか、模倣学習手法を適用して、デシジョン ツリーを使用してニューラル ネットワーク ポリシーの動作をほぼコピーしていました。
我々は、ポリシー勾配を使用して完全な決定木を直接最適化する決定木ポリシー最適化 (DTPO) アルゴリズムを提案します。
私たちの手法では、確立された決定木ヒューリスティックを回帰に使用して、ポリシーの最適化を実行します。
我々は、強化学習における決定木ポリシーを最適化するための模倣学習アルゴリズムと比較して、DTPO が競合アルゴリズムであることを経験的に示しています。

要約(オリジナル)

Reinforcement learning techniques leveraging deep learning have made tremendous progress in recent years. However, the complexity of neural networks prevents practitioners from understanding their behavior. Decision trees have gained increased attention in supervised learning for their inherent interpretability, enabling modelers to understand the exact prediction process after learning. This paper considers the problem of optimizing interpretable decision tree policies to replace neural networks in reinforcement learning settings. Previous works have relaxed the tree structure, restricted to optimizing only tree leaves, or applied imitation learning techniques to approximately copy the behavior of a neural network policy with a decision tree. We propose the Decision Tree Policy Optimization (DTPO) algorithm that directly optimizes the complete decision tree using policy gradients. Our technique uses established decision tree heuristics for regression to perform policy optimization. We empirically show that DTPO is a competitive algorithm compared to imitation learning algorithms for optimizing decision tree policies in reinforcement learning.

arxiv情報

著者 Daniël Vos,Sicco Verwer
発行日 2024-08-21 14:04:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク