Putting the Iterative Training of Decision Trees to the Test on a Real-World Robotic Task

要約

以前の研究では、深層強化学習 (DRL) ネットワークに基づいて、強化学習タスクのエージェントとしてデシジョン ツリー (DT) をトレーニングする方法を開発しました。
DT の構築元となるサンプルでは、​​環境の状態を機能として使用し、対応するアクションをラベルとして使用します。
サンプルを選択するという重要なタスクを解決するために、適切なアクションを選択する DRL エージェントの能力を反映する一方で、適切に一般化するのに十分な状態空間もカバーするため、DT を反復的にトレーニングするアルゴリズムを開発しました。
この短い論文では、このアルゴリズムをロボット タスクの実世界の実装に初めて適用します。
現実世界のタスクでは、シミュレーションと比較して、ノイズや遅延などの追加の課題が生じます。
このタスクは、直線トラック上を移動するカートに取り付けられた物理的な振り子で構成されます。
左右への動きにより、振り子は直立状態で振られ、不安定な平衡状態になります。
私たちの結果は、より少ないパラメータで構成されながらも、パフォーマンスが DRL エージェントのパフォーマンスと一致する DT を生成することにより、アルゴリズムが実際のタスクに適用できることを示しています。
この研究は、DRL エージェントから DT を抽出して、現実世界の強化学習タスク用の透明で軽量なモデルを取得するための出発点となる可能性があります。

要約(オリジナル)

In previous research, we developed methods to train decision trees (DT) as agents for reinforcement learning tasks, based on deep reinforcement learning (DRL) networks. The samples from which the DTs are built, use the environment’s state as features and the corresponding action as label. To solve the nontrivial task of selecting samples, which on one hand reflect the DRL agent’s capabilities of choosing the right action but on the other hand also cover enough state space to generalize well, we developed an algorithm to iteratively train DTs. In this short paper, we apply this algorithm to a real-world implementation of a robotic task for the first time. Real-world tasks pose additional challenges compared to simulations, such as noise and delays. The task consists of a physical pendulum attached to a cart, which moves on a linear track. By movements to the left and to the right, the pendulum is to be swung in the upright position and balanced in the unstable equilibrium. Our results demonstrate the applicability of the algorithm to real-world tasks by generating a DT whose performance matches the performance of the DRL agent, while consisting of fewer parameters. This research could be a starting point for distilling DTs from DRL agents to obtain transparent, lightweight models for real-world reinforcement learning tasks.

arxiv情報

著者 Raphael C. Engelhardt,Marcel J. Meinen,Moritz Lange,Laurenz Wiskott,Wolfgang Konen
発行日 2024-12-06 11:48:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク