要約
効果的な人間とロボットの相互作用には、ロボットが人間の意図を特定し、表現力豊かで社会的に適切な動きをリアルタイムで生成する必要があります。
既存のアプローチは、多くの場合、固定モーションライブラリまたは計算上の高価な生成モデルに依存しています。
コンテキスト学習(ICL)と拡散モデルを使用したリアルタイムモーション生成を介して意図を認識する推論を組み合わせた階層的なフレームワークを提案します。
私たちのシステムは、意図の洗練と適応対応を可能にするために、自信のスコアリング、フォールバック行動、社会的文脈の認識を備えた構造化されたプロンプトを導入します。
大規模なモーションデータセットと効率的な潜在スペース除去を活用するこのフレームワークは、動的なヒューマノイド相互作用に適した多様で物理的にもっともらしいジェスチャーを生成します。
物理プラットフォームでの実験的検証は、現実的なシナリオでの方法の堅牢性と社会的整合を示しています。
要約(オリジナル)
Effective human-robot interaction requires robots to identify human intentions and generate expressive, socially appropriate motions in real-time. Existing approaches often rely on fixed motion libraries or computationally expensive generative models. We propose a hierarchical framework that combines intention-aware reasoning via in-context learning (ICL) with real-time motion generation using diffusion models. Our system introduces structured prompting with confidence scoring, fallback behaviors, and social context awareness to enable intention refinement and adaptive response. Leveraging large-scale motion datasets and efficient latent-space denoising, the framework generates diverse, physically plausible gestures suitable for dynamic humanoid interactions. Experimental validation on a physical platform demonstrates the robustness and social alignment of our method in realistic scenarios.
arxiv情報
著者 | Lingfan Bao,Yan Pan,Tianhu Peng,Kanoulas Dimitrios,Chengxu Zhou |
発行日 | 2025-06-05 21:25:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google