要約
ヒューマノイド ロボットは、人間のような体現を持ち、人間の環境にシームレスに統合できる可能性を持っています。
人間との共存と協力にとって重要なのは、自然言語コミュニケーションを理解し、人間のような行動を示す能力です。
この研究は、言語記述から人型ロボットの多様な全身運動を生成することに焦点を当てています。
私たちは、広範な人間の動作データセットから人間の動作事前分布を活用してヒューマノイドの動作を初期化し、視覚言語モデル (VLM) の常識的な推論機能を使用してこれらの動作を編集および調整します。
私たちのアプローチは、自然で表現力豊かな、テキストに合わせたヒューマノイドの動きを生成する能力を実証しており、シミュレーション実験と現実世界での実験の両方を通じて検証されています。
その他のビデオは https://ut-austin-rpl.github.io/Harmon/ でご覧いただけます。
要約(オリジナル)
Humanoid robots, with their human-like embodiment, have the potential to integrate seamlessly into human environments. Critical to their coexistence and cooperation with humans is the ability to understand natural language communications and exhibit human-like behaviors. This work focuses on generating diverse whole-body motions for humanoid robots from language descriptions. We leverage human motion priors from extensive human motion datasets to initialize humanoid motions and employ the commonsense reasoning capabilities of Vision Language Models (VLMs) to edit and refine these motions. Our approach demonstrates the capability to produce natural, expressive, and text-aligned humanoid motions, validated through both simulated and real-world experiments. More videos can be found at https://ut-austin-rpl.github.io/Harmon/.
arxiv情報
著者 | Zhenyu Jiang,Yuqi Xie,Jinhan Li,Ye Yuan,Yifeng Zhu,Yuke Zhu |
発行日 | 2024-10-16 17:48:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google