Interpretable Reinforcement Learning for Robotics and Continuous Control

要約

機械学習の解釈可能性は、法的に規制されている領域や安全性が重要な領域にわたって学習されたポリシーを安全に展開するために重要です。
強化学習における勾配ベースのアプローチは、ロボット工学や自動運転などの連続制御問題の学習ポリシーにおいて多大な成功を収めていますが、解釈可能性の欠如が導入の根本的な障壁となっています。
私たちは、解釈可能な連続制御ツリー (ICCT) を提案します。これは、最新の勾配ベースの強化学習アプローチを通じて最適化して、高性能で解釈可能なポリシーを生成できるツリーベースのモデルです。
私たちのアプローチの鍵は、スパースな決定木のような表現で直接最適化を可能にする手順です。
6 つのドメインにわたるベースラインに対して ICCT を検証し、ICCT が深層学習ベースラインと比較してパラメーター数の 300 ~ 600 倍の削減を達成しながら、自動運転シナリオにおいてベースラインと同等または最大 33% 上回るパフォーマンスを発揮する学習ポリシーが可能であることを示しています。
我々は、ICCT が汎用関数近似器として機能できることを証明し、ICCT が線形時間で検証できることを分析的に示します。
さらに、米国の州間高速道路 94 号線と 280 号線に基づく 2 つの現実的な運転ドメインに ICCT を導入しています。
最後に、ICCT の有用性をエンド ユーザーに検証し、ICCT はニューラル ネットワークよりもシミュレーションが容易で、検証が迅速で、解釈しやすいと評価されていることがわかりました。

要約(オリジナル)

Interpretability in machine learning is critical for the safe deployment of learned policies across legally-regulated and safety-critical domains. While gradient-based approaches in reinforcement learning have achieved tremendous success in learning policies for continuous control problems such as robotics and autonomous driving, the lack of interpretability is a fundamental barrier to adoption. We propose Interpretable Continuous Control Trees (ICCTs), a tree-based model that can be optimized via modern, gradient-based, reinforcement learning approaches to produce high-performing, interpretable policies. The key to our approach is a procedure for allowing direct optimization in a sparse decision-tree-like representation. We validate ICCTs against baselines across six domains, showing that ICCTs are capable of learning policies that parity or outperform baselines by up to 33% in autonomous driving scenarios while achieving a 300x-600x reduction in the number of parameters against deep learning baselines. We prove that ICCTs can serve as universal function approximators and display analytically that ICCTs can be verified in linear time. Furthermore, we deploy ICCTs in two realistic driving domains, based on interstate Highway-94 and 280 in the US. Finally, we verify ICCT’s utility with end-users and find that ICCTs are rated easier to simulate, quicker to validate, and more interpretable than neural networks.

arxiv情報

著者 Rohan Paleja,Letian Chen,Yaru Niu,Andrew Silva,Zhaoxin Li,Songan Zhang,Chace Ritchie,Sugju Choi,Kimberlee Chestnut Chang,Hongtei Eric Tseng,Yan Wang,Subramanya Nageshrao,Matthew Gombolay
発行日 2023-11-16 17:37:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク