要約
ヒューマンシーン インタラクション (HSI) は、具体化された AI や仮想現実などの分野の重要なコンポーネントです。
モーション品質と物理的妥当性の進歩にも関わらず、HSI の実用化の前に、2 つの極めて重要な要素、多用途のインタラクション制御とユーザーフレンドリーなインターフェイスの開発について、さらなる検討が必要です。
この論文では、言語コマンドを介した多様なインタラクションの統合制御をサポートする統合 HSI フレームワーク UniHSI について説明します。
このフレームワークは、接触チェーン (CoC) としてのインタラクションの定義に基づいて構築されています。これは、インタラクションのタイプと人間とオブジェクトの接触領域間の強い相関関係にヒントを得た、人間の関節とオブジェクトのパーツのペアのステップです。
この定義に基づいて、UniHSI は、言語プロンプトを CoC 形式のタスク プランに変換する大規模言語モデル (LLM) プランナーと、CoC を均一なタスク実行に変える統合コントローラーを構成します。
トレーニングと評価を容易にするために、さまざまなシナリオに基づいて LLM によって生成された何千ものタスク プランを含む、ScenePlan という名前の新しいデータセットを収集します。
包括的な実験により、多用途のタスク実行におけるフレームワークの有効性と実際のスキャンされたシーンへの一般化可能性が実証されています。
プロジェクト ページは https://github.com/OpenRobotLab/UniHSI にあります。
要約(オリジナル)
Human-Scene Interaction (HSI) is a vital component of fields like embodied AI and virtual reality. Despite advancements in motion quality and physical plausibility, two pivotal factors, versatile interaction control and the development of a user-friendly interface, require further exploration before the practical application of HSI. This paper presents a unified HSI framework, UniHSI, which supports unified control of diverse interactions through language commands. This framework is built upon the definition of interaction as Chain of Contacts (CoC): steps of human joint-object part pairs, which is inspired by the strong correlation between interaction types and human-object contact regions. Based on the definition, UniHSI constitutes a Large Language Model (LLM) Planner to translate language prompts into task plans in the form of CoC, and a Unified Controller that turns CoC into uniform task execution. To facilitate training and evaluation, we collect a new dataset named ScenePlan that encompasses thousands of task plans generated by LLMs based on diverse scenarios. Comprehensive experiments demonstrate the effectiveness of our framework in versatile task execution and generalizability to real scanned scenes. The project page is at https://github.com/OpenRobotLab/UniHSI .
arxiv情報
著者 | Zeqi Xiao,Tai Wang,Jingbo Wang,Jinkun Cao,Wenwei Zhang,Bo Dai,Dahua Lin,Jiangmiao Pang |
発行日 | 2023-09-14 17:59:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google