Unified Human-Scene Interaction via Prompted Chain-of-Contacts


ヒューマン・シーン・インタラクション(HSI)は、具現化AIやバーチャルリアリティなどの分野で不可欠な要素である。しかし、HSIの実用化には、多様なインタラクション制御とユーザーフレンドリーなインタフェースの開発という2つの重要な要素について、さらなる検討が必要である。本稿では、言語コマンドによる多様なインタラクションの統一的な制御をサポートする統一的なHSIフレームワークUniHSIを紹介する。このフレームワークは、インタラクションの定義であるChain of Contacts (CoC):人間の関節とオブジェクトのパーツペアのステップ、に基づいて構築されており、インタラクションの種類と人間とオブジェクトの接触領域の間に強い相関があることに着想を得ている。この定義に基づき、UniHSIは、言語プロンプトをCoC形式のタスクプランに変換する大規模言語モデル(LLM)プランナーと、CoCを均一なタスク実行に変換するユニファイドコントローラーから構成される。訓練と評価を容易にするために、我々は、多様なシナリオに基づくLLMによって生成された何千ものタスク計画を含む、ScenePlanと名付けられた新しいデータセットを収集する。包括的な実験により、汎用的なタスク実行における我々のフレームワークの有効性と、実際のスキャンシーンへの汎用性が実証された。プロジェクトページは https://github.com/OpenRobotLab/UniHSI 。


Human-Scene Interaction (HSI) is a vital component of fields like embodied AI and virtual reality. Despite advancements in motion quality and physical plausibility, two pivotal factors, versatile interaction control and the development of a user-friendly interface, require further exploration before the practical application of HSI. This paper presents a unified HSI framework, UniHSI, which supports unified control of diverse interactions through language commands. This framework is built upon the definition of interaction as Chain of Contacts (CoC): steps of human joint-object part pairs, which is inspired by the strong correlation between interaction types and human-object contact regions. Based on the definition, UniHSI constitutes a Large Language Model (LLM) Planner to translate language prompts into task plans in the form of CoC, and a Unified Controller that turns CoC into uniform task execution. To facilitate training and evaluation, we collect a new dataset named ScenePlan that encompasses thousands of task plans generated by LLMs based on diverse scenarios. Comprehensive experiments demonstrate the effectiveness of our framework in versatile task execution and generalizability to real scanned scenes. The project page is at https://github.com/OpenRobotLab/UniHSI .


著者 Zeqi Xiao,Tai Wang,Jingbo Wang,Jinkun Cao,Wenwei Zhang,Bo Dai,Dahua Lin,Jiangmiao Pang
発行日 2024-09-03 13:52:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク