Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention

要約

現実のシナリオでは、人間は日々のニーズや意図を満たすために 3D 世界でオブジェクトを探します。
これは、「背中を支える何かが欲しい」などの人間の意図に基づいた、RGB-D を使用した 3D オブジェクト検出の新しいタスクである 3D インテンション グラウンディングを導入するきっかけになりました。
密接に関連している 3D 視覚的グラウンディングは、人間の基準を理解することに重点を置いています。
人間の意図に基づいた検出を実現するために、人間が現場を観察し、その意図と一致するターゲット (この場合は「枕」) を推測し、最終的に「枕」などの AI システムへの参照を提供します。
ソファーで’。
代わりに、3D 意図グラウンディングでは、AI エージェントが人間の意図のみに基づいて目的のターゲットを自動的に観察、推論、検出することが求められます。
この課題に取り組むために、ScanNet データセットの 1,042 シーンからの 209 のきめ細かいクラスに関連付けられた 44,990 のインテンション テキストで構成される新しい Intent3D データセットを導入します。
また、ベンチマークでは、さまざまな言語ベースの 3D オブジェクト検出モデルに基づいて、いくつかのベースラインを確立します。
最後に、この意図ベースの検出問題に取り組むために設計された独自のアプローチである IntentNet を提案します。
それは、意図の理解、オブジェクト候補を特定するための推論、および複数の目的の最適化のためにさまざまな損失の固有の優先順位ロジックを活用するカスケード適応学習という 3 つの重要な側面に焦点を当てています。

要約(オリジナル)

In real-life scenarios, humans seek out objects in the 3D world to fulfill their daily needs or intentions. This inspires us to introduce 3D intention grounding, a new task in 3D object detection employing RGB-D, based on human intention, such as ‘I want something to support my back’. Closely related, 3D visual grounding focuses on understanding human reference. To achieve detection based on human intention, it relies on humans to observe the scene, reason out the target that aligns with their intention (‘pillow’ in this case), and finally provide a reference to the AI system, such as ‘A pillow on the couch’. Instead, 3D intention grounding challenges AI agents to automatically observe, reason and detect the desired target solely based on human intention. To tackle this challenge, we introduce the new Intent3D dataset, consisting of 44,990 intention texts associated with 209 fine-grained classes from 1,042 scenes of the ScanNet dataset. We also establish several baselines based on different language-based 3D object detection models on our benchmark. Finally, we propose IntentNet, our unique approach, designed to tackle this intention-based detection problem. It focuses on three key aspects: intention understanding, reasoning to identify object candidates, and cascaded adaptive learning that leverages the intrinsic priority logic of different losses for multiple objective optimization.

arxiv情報

著者 Weitai Kang,Mengxue Qu,Jyoti Kini,Yunchao Wei,Mubarak Shah,Yan Yan
発行日 2024-05-28 15:48:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク