要約
ロボットのスキル学習における最近の進歩により、タスクに依存しないスキル ライブラリを構築できる可能性が開かれ、より複雑なタスクに取り組むための複数の単純な操作プリミティブ (別名スキル) のシームレスな順序付けが容易になりました。
それにも関わらず、特に目標が象徴的な目標ではなく最終的な幾何学的構成の観点からのみ与えられる場合、独立して学習したスキルの最適な順序を決定することは未解決の問題のままです。
この課題に対処するために、私たちは、独立して学習したスキルを順番に並べて長期的なタスクを解決する最適化ベースのアプローチであるロジック スキル プログラミング (LSP) を提案します。
数値関数の合計によって抽象化された、計画内のすべてのスキルの全体的な累積報酬を最適化する数学的プログラムの一次拡張を定式化します。
このようなプログラムを解決するために、テンソル トレイン因数分解を利用して値関数空間を構築し、シンボリック検索とスキル値の最適化の間の交互に依存して、適切なスキル スケルトンと最適なサブゴール シーケンスを見つけます。
実験結果は、得られた価値関数が、最先端の強化学習方法と比較して、累積報酬の優れた近似を提供することを示しています。
さらに、把握可能なプリミティブと非把握可能なプリミティブの両方を含む 3 つの操作ドメインで LSP を検証します。
結果は、完全なロジックおよび幾何学的パスにわたって最適なソリューションを特定する能力を示しています。
実際のロボット実験では、現実世界における接触の不確実性や外乱に対処するためのアプローチの有効性を示しています。
要約(オリジナル)
Recent advances in robot skill learning have unlocked the potential to construct task-agnostic skill libraries, facilitating the seamless sequencing of multiple simple manipulation primitives (aka. skills) to tackle significantly more complex tasks. Nevertheless, determining the optimal sequence for independently learned skills remains an open problem, particularly when the objective is given solely in terms of the final geometric configuration rather than a symbolic goal. To address this challenge, we propose Logic-Skill Programming (LSP), an optimization-based approach that sequences independently learned skills to solve long-horizon tasks. We formulate a first-order extension of a mathematical program to optimize the overall cumulative reward of all skills within a plan, abstracted by the sum of value functions. To solve such programs, we leverage the use of tensor train factorization to construct the value function space, and rely on alternations between symbolic search and skill value optimization to find the appropriate skill skeleton and optimal subgoal sequence. Experimental results indicate that the obtained value functions provide a superior approximation of cumulative rewards compared to state-of-the-art reinforcement learning methods. Furthermore, we validate LSP in three manipulation domains, encompassing both prehensile and non-prehensile primitives. The results demonstrate its capability to identify the optimal solution over the full logic and geometric path. The real-robot experiments showcase the effectiveness of our approach to cope with contact uncertainty and external disturbances in the real world.
arxiv情報
著者 | Teng Xue,Amirreza Razmjoo,Suhan Shetty,Sylvain Calinon |
発行日 | 2024-07-16 20:17:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google