Deriving Rewards for Reinforcement Learning from Symbolic Behaviour Descriptions of Bipedal Walking

要約

記号的な記述から物理的な動きの動作を生成することは、人工知能 (AI) とロボット工学における長年の課題であり、数値的な最適化手法と、記号的な AI と推論による形式化についての洞察が必要です。
この論文では、記号記述から報酬関数を見つける新しいアプローチを提案します。
意図したシステムの動作はハイブリッド オートマトンとしてモデル化され、システムの状態空間が削減されて、より効率的な強化学習が可能になります。
このアプローチは、歩行ロボットを状態空間オルタント上のハイブリッド オートマトンとしてモデル化することで二足歩行に適用され、コンパス ウォーカーとともに使用されて、ハイブリッド オートマトン サイクルに従うことを奨励する報酬を導き出します。
その結果、強化学習コントローラーのトレーニング時間が短縮され、最終的な歩行速度が向上します。
このアプローチは、シンボリック AI と推論から報酬関数を生成する方法の青写真として機能します。

要約(オリジナル)

Generating physical movement behaviours from their symbolic description is a long-standing challenge in artificial intelligence (AI) and robotics, requiring insights into numerical optimization methods as well as into formalizations from symbolic AI and reasoning. In this paper, a novel approach to finding a reward function from a symbolic description is proposed. The intended system behaviour is modelled as a hybrid automaton, which reduces the system state space to allow more efficient reinforcement learning. The approach is applied to bipedal walking, by modelling the walking robot as a hybrid automaton over state space orthants, and used with the compass walker to derive a reward that incentivizes following the hybrid automaton cycle. As a result, training times of reinforcement learning controllers are reduced while final walking speed is increased. The approach can serve as a blueprint how to generate reward functions from symbolic AI and reasoning.

arxiv情報

著者 Daniel Harnack,Christoph Lüth,Lukas Gross,Shivesh Kumar,Frank Kirchner
発行日 2023-12-16 05:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.LO, cs.RO, I.2.6 パーマリンク