Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression

要約

強化学習 (RL) の最近の進歩は、ロボットの移動能力において目覚ましい成果をもたらしました。
ただし、ニューラル ネットワーク ベースの RL ポリシーの複雑さと「ブラック ボックス」の性質により、特に高レベルの安全性と信頼性が要求されるアプリケーションでは、その解釈可能性と広範な受け入れが妨げられています。
この論文では、Gradient Boosting Machines (GBM)、Explainable Boosting Machines (EBM)、およびシンボリック回帰を使用して、ニューラル RL ポリシーをより解釈可能な形式に抽出する新しいアプローチを紹介します。
一般化された加算モデル、デシジョン ツリー、分析式の固有の解釈可能性を活用することで、不透明なニューラル ネットワーク ポリシーをより透明な「ガラスボックス」モデルに変換します。
RL を使用してエキスパート ニューラル ネットワーク ポリシーをトレーニングし、その後、それらを (i) GBM、(ii) EBM、および (iii) シンボリック ポリシーに抽出します。
行動クローニングに固有の分布シフトの課題に対処するために、エキスパート ポリシーと抽出されたポリシーの間でエピソードに応じてアクションを切り替えるカリキュラムを備えたデータセット集約 (DAgger) アルゴリズムを使用して、フィードバック制御ポリシーの効率的な抽出を可能にすることを提案します。
私たちは、さまざまなロボットの歩行(歩行、速歩、バウンド、ペーシング)に対するアプローチを評価し、さまざまな方法を使用して、政策を抽出するための共同行動におけるさまざまな観察の重要性を研究します。
私たちは、提案された方法を使用して、205 時間の模擬体験でニューラル エキスパート ポリシーをトレーニングし、各歩行についてわずか 10 分間の模擬対話で解釈可能なポリシーを抽出します。

要約(オリジナル)

Recent advancements in reinforcement learning (RL) have led to remarkable achievements in robot locomotion capabilities. However, the complexity and “black-box” nature of neural network-based RL policies hinder their interpretability and broader acceptance, particularly in applications demanding high levels of safety and reliability. This paper introduces a novel approach to distill neural RL policies into more interpretable forms using Gradient Boosting Machines (GBMs), Explainable Boosting Machines (EBMs) and Symbolic Regression. By leveraging the inherent interpretability of generalized additive models, decision trees, and analytical expressions, we transform opaque neural network policies into more transparent “glass-box” models. We train expert neural network policies using RL and subsequently distill them into (i) GBMs, (ii) EBMs, and (iii) symbolic policies. To address the inherent distribution shift challenge of behavioral cloning, we propose to use the Dataset Aggregation (DAgger) algorithm with a curriculum of episode-dependent alternation of actions between expert and distilled policies, to enable efficient distillation of feedback control policies. We evaluate our approach on various robot locomotion gaits — walking, trotting, bounding, and pacing — and study the importance of different observations in joint actions for distilled policies using various methods. We train neural expert policies for 205 hours of simulated experience and distill interpretable policies with only 10 minutes of simulated interaction for each gait using the proposed method.

arxiv情報

著者 Fernando Acero,Zhibin Li
発行日 2024-03-21 11:54:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク