A Backbone for Long-Horizon Robot Task Understanding

要約

ロボットのエンド・ツー・エンドの学習、特に長ホライズンのタスクの学習は、しばしば予測不可能な結果をもたらし、汎化が不十分である。このような課題に対処するため、我々はロボットタスクの理解と伝達性を向上させる新しいサーブリグに基づくバックボーンフレームワーク(TBBF)を提案する。このフレームワークは、サーブリグ(基本動作要素)をバックボーンとして使用し、高レベルのロボットタスクを要素的なロボット構成に分解する。このアプローチは、オフライントレーニングとオンラインテストの2つの段階から構成される。オフライントレーニングの段階では、様々なタスクにわたる正確なサーブリグセグメンテーションのためにMeta-RGate SynerFusion (MGSF)ネットワークを開発した。オンラインテストの段階では、新しいタスクのワンショットのデモンストレーションが収集された後、我々のMGSFネットワークは高レベルの知識を抽出し、アクションレジストレーション(ActionREG)を用いて画像にエンコードする。さらに、Large Language Model (LLM)-Alignment Policy for Visual Correction (LAP-VC)を採用することで、正確なアクションの実行を保証し、新規のロボットシナリオにおける軌道移動を容易にする。実験結果はこれらの方法を検証するものであり、サーブリグのセグメンテーションにおいて94.37%の想起率を達成し、実世界のオンラインロボットテストにおいて、単純なシナリオと複雑なシナリオでそれぞれ94.4%と80%の成功率を達成した。補足資料はhttps://sites.google.com/view/therbligsbasedbackbone/home。

要約(オリジナル)

End-to-end robot learning, particularly for long-horizon tasks, often results in unpredictable outcomes and poor generalization. To address these challenges, we propose a novel Therblig-based Backbone Framework (TBBF) to enhance robot task understanding and transferability. This framework uses therbligs (basic action elements) as the backbone to decompose high-level robot tasks into elemental robot configurations, which are then integrated with current foundation models to improve task understanding. The approach consists of two stages: offline training and online testing. During the offline training stage, we developed the Meta-RGate SynerFusion (MGSF) network for accurate therblig segmentation across various tasks. In the online testing stage, after a one-shot demonstration of a new task is collected, our MGSF network extracts high-level knowledge, which is then encoded into the image using Action Registration (ActionREG). Additionally, the Large Language Model (LLM)-Alignment Policy for Visual Correction (LAP-VC) is employed to ensure precise action execution, facilitating trajectory transfer in novel robot scenarios. Experimental results validate these methods, achieving 94.37% recall in therblig segmentation and success rates of 94.4% and 80% in real-world online robot testing for simple and complex scenarios, respectively. Supplementary material is available at: https://sites.google.com/view/therbligsbasedbackbone/home

arxiv情報

著者 Xiaoshuai Chen,Wei Chen,Dongmyoung Lee,Yukun Ge,Nicolas Rojas,Petar Kormushev
発行日 2024-08-02 15:32:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.HC, cs.RO パーマリンク