Learning Interpretable, High-Performing Policies for Autonomous Driving

要約

強化学習 (RL) における勾配ベースのアプローチは、自動運転車の学習ポリシーにおいて多大な成功を収めています。
これらのアプローチのパフォーマンスは現実世界での採用を保証しますが、これらのポリシーは解釈可能性に欠けており、安全性が重要で法的に規制されている自動運転 (AD) の領域での導入可能性が制限されます。
AD には、高いパフォーマンスを維持する、解釈可能で検証可能な制御ポリシーが必要です。
私たちは、解釈可能な連続制御ツリー (ICCT) を提案します。これは、最新の勾配ベースの RL アプローチを通じて最適化して、高性能で解釈可能なポリシーを生成できるツリーベースのモデルです。
私たちのアプローチの鍵は、スパースな決定木のような表現で直接最適化を可能にする手順です。
6 つのドメインにわたるベースラインに対して ICCT を検証し、ICCT が深層学習ベースラインに対してポリシー パラメーター数の 300 ~ 600 倍の削減を達成しながら、AD シナリオでベースラインと同等または最大 33% 上回るパフォーマンスを示す解釈可能なポリシー表現を学習できることを示しています。
さらに、14 台の車両による物理ロボットのデモンストレーションを通じて、ICCT の解釈可能性と有用性を実証します。

要約(オリジナル)

Gradient-based approaches in reinforcement learning (RL) have achieved tremendous success in learning policies for autonomous vehicles. While the performance of these approaches warrants real-world adoption, these policies lack interpretability, limiting deployability in the safety-critical and legally-regulated domain of autonomous driving (AD). AD requires interpretable and verifiable control policies that maintain high performance. We propose Interpretable Continuous Control Trees (ICCTs), a tree-based model that can be optimized via modern, gradient-based, RL approaches to produce high-performing, interpretable policies. The key to our approach is a procedure for allowing direct optimization in a sparse decision-tree-like representation. We validate ICCTs against baselines across six domains, showing that ICCTs are capable of learning interpretable policy representations that parity or outperform baselines by up to 33% in AD scenarios while achieving a 300x-600x reduction in the number of policy parameters against deep learning baselines. Furthermore, we demonstrate the interpretability and utility of our ICCTs through a 14-car physical robot demonstration.

arxiv情報

著者 Rohan Paleja,Yaru Niu,Andrew Silva,Chace Ritchie,Sugju Choi,Matthew Gombolay
発行日 2023-07-31 17:44:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク