要約
ロボットがさまざまな環境で自律的にハイブリッド動作を実行できるようにすることは、マテリアルハンドリング、家事、作業支援などの長期的なタスクに有益となる可能性があります。
これには、固有の運動能力の広範な活用、豊富な環境情報からのアフォーダンスの抽出、および物理的相互作用行動の計画が必要です。
最近の進歩により、ヒューマノイドの全身制御能力は驚くべきものになっているにもかかわらず、新しいタスクに対する多用途性と適応性を達成するのに苦労しています。
この研究では、さまざまなシナリオのタスクに基づいて行動を学習、選択、計画するフレームワークである HYPERmotion を提案します。
強化学習と全身最適化を組み合わせて、38 個の作動関節のモーションを生成し、学習したスキルを保存するモーション ライブラリを作成します。
大規模言語モデル (LLM) の計画および推論機能を複雑な移動操作タスクに適用し、下位レベルの実行と上位レベルの計画を橋渡しする一連の原始的な動作で構成される階層型タスク グラフを構築します。
抽出された空間幾何学と視覚言語モデル (VLM) による 2D 観察の相互作用を活用して、知識をロボットの形態セレクターに根付かせ、単腕または双腕、脚または車輪による移動で適切な動作を選択します。
シミュレーションと現実世界での実験では、学習されたモーションが新しいタスクに効率的に適応できることが示され、構造化されていないシーンでの自由テキスト コマンドからの高い自律性が実証されました。
ビデオとウェブサイト: hy-motion.github.io/
要約(オリジナル)
Enabling robots to autonomously perform hybrid motions in diverse environments can be beneficial for long-horizon tasks such as material handling, household chores, and work assistance. This requires extensive exploitation of intrinsic motion capabilities, extraction of affordances from rich environmental information, and planning of physical interaction behaviors. Despite recent progress has demonstrated impressive humanoid whole-body control abilities, they struggle to achieve versatility and adaptability for new tasks. In this work, we propose HYPERmotion, a framework that learns, selects and plans behaviors based on tasks in different scenarios. We combine reinforcement learning with whole-body optimization to generate motion for 38 actuated joints and create a motion library to store the learned skills. We apply the planning and reasoning features of the large language models (LLMs) to complex loco-manipulation tasks, constructing a hierarchical task graph that comprises a series of primitive behaviors to bridge lower-level execution with higher-level planning. By leveraging the interaction of distilled spatial geometry and 2D observation with a visual language model (VLM) to ground knowledge into a robotic morphology selector to choose appropriate actions in single- or dual-arm, legged or wheeled locomotion. Experiments in simulation and real-world show that learned motions can efficiently adapt to new tasks, demonstrating high autonomy from free-text commands in unstructured scenes. Videos and website: hy-motion.github.io/
arxiv情報
著者 | Jin Wang,Rui Dai,Weijie Wang,Luca Rossini,Francesco Ruscelli,Nikos Tsagarakis |
発行日 | 2024-06-20 18:21:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google