HumanVLA: Towards Vision-Language Directed Object Rearrangement by Physical Humanoid

要約

物理的なヒューマンシーンインタラクション (HSI) は、多くのアプリケーションで重要な役割を果たします。
ただし、既存の HSI 技術は特定のオブジェクトのダイナミクスと特権情報に限定されているため、より包括的なアプリケーションの開発が妨げられています。
この制限に対処するために、実際の視覚と言語に基づいて一般的なオブジェクトを再配置するための HumanVLA を導入します。
HumanVLA の開発には教師と生徒のフレームワークが利用されます。
状態ベースの教師ポリシーは、まず目標条件付き強化学習と事前の敵対的モーションを使用してトレーニングされます。
次に、行動の複製を通じて、視覚-言語-行動モデルに蒸留されます。
大規模な学習プロセスを促進するためのいくつかの重要な洞察を提案します。
物理的なヒューマノイドによる一般的なオブジェクトの再配置をサポートするために、さまざまな再配置タスクを含む新しい Human-in-the-Room データセットを導入します。
広範な実験と分析を通じて、提案されたアプローチの有効性を実証します。

要約(オリジナル)

Physical Human-Scene Interaction (HSI) plays a crucial role in numerous applications. However, existing HSI techniques are limited to specific object dynamics and privileged information, which prevents the development of more comprehensive applications. To address this limitation, we introduce HumanVLA for general object rearrangement directed by practical vision and language. A teacher-student framework is utilized to develop HumanVLA. A state-based teacher policy is trained first using goal-conditioned reinforcement learning and adversarial motion prior. Then, it is distilled into a vision-language-action model via behavior cloning. We propose several key insights to facilitate the large-scale learning process. To support general object rearrangement by physical humanoid, we introduce a novel Human-in-the-Room dataset encompassing various rearrangement tasks. Through extensive experiments and analysis, we demonstrate the effectiveness of the proposed approach.

arxiv情報

著者 Xinyu Xu,Yizheng Zhang,Yong-Lu Li,Lei Han,Cewu Lu
発行日 2024-06-28 15:00:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク