RHINO: Learning Real-Time Humanoid-Human-Object Interaction from Human Demonstrations

要約

ヒューマノイドロボットは、移動と操作に成功を示しています。
これらの基本的な能力にもかかわらず、ヒューマノイドは、人間の指示を迅速に理解し、人間の相互作用シグナルに基づいて反応するために人間の日常生活の貴重なアシスタントになるために依然として必要です。
残念ながら、ほとんどの既存の作品は、多段階の相互作用にのみ焦点を当て、各タスクを個別に扱い、リアルタイムのフィードバックを無視しています。
この作業では、リアルタイムの反応能力を備えたヒューマノイドロボットにさまざまなタスクを達成し、人間がいつでもロボットを中断し、ロボットをすぐに人間に反応させることを目指しています。
このような能力をサポートするために、Rhinoという名前の一般的なヒューマノイドヒューマンとオブジェクトの相互作用フレームワーク、つまりリアルタイムのヒューマノイドヒューマン相互作用とオブジェクト操作を提案します。
Rhinoは、言語、画像、動きなどの複数の人間の信号のモダリティよりも、反応的な動き、命令ベースの操作、および安全性の懸念に関する統一された見解を提供します。
Rhinoは階層的な学習フレームワークであり、ヒューマノイドがヒトと人間のオブジェクトのデモンストレーションとテレオ操作データから反応スキルを学ぶことができます。
特に、相互作用プロセスを2つのレベルに切り離します。1)リアルタイムの人間の行動からの人間の意図を推測する高レベルのプランナー。
2)予測された意図に基づいて、リアクティブな動きの動作とオブジェクト操作スキルを達成する低レベルのコントローラー。
実際のヒューマノイドロボットで提案されたフレームワークを評価し、さまざまなシナリオでその有効性、柔軟性、安全性を実証します。

要約(オリジナル)

Humanoid robots have shown success in locomotion and manipulation. Despite these basic abilities, humanoids are still required to quickly understand human instructions and react based on human interaction signals to become valuable assistants in human daily life. Unfortunately, most existing works only focus on multi-stage interactions, treating each task separately, and neglecting real-time feedback. In this work, we aim to empower humanoid robots with real-time reaction abilities to achieve various tasks, allowing human to interrupt robots at any time, and making robots respond to humans immediately. To support such abilities, we propose a general humanoid-human-object interaction framework, named RHINO, i.e., Real-time Humanoid-human Interaction and Object manipulation. RHINO provides a unified view of reactive motion, instruction-based manipulation, and safety concerns, over multiple human signal modalities, such as languages, images, and motions. RHINO is a hierarchical learning framework, enabling humanoids to learn reaction skills from human-human-object demonstrations and teleoperation data. In particular, it decouples the interaction process into two levels: 1) a high-level planner inferring human intentions from real-time human behaviors; and 2) a low-level controller achieving reactive motion behaviors and object manipulation skills based on the predicted intentions. We evaluate the proposed framework on a real humanoid robot and demonstrate its effectiveness, flexibility, and safety in various scenarios.

arxiv情報

著者 Jingxiao Chen,Xinyao Li,Jiahang Cao,Zhengbang Zhu,Wentao Dong,Minghuan Liu,Ying Wen,Yong Yu,Liqing Zhang,Weinan Zhang
発行日 2025-02-18 18:56:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.RO パーマリンク