Vote2Cap-DETR++: Decoupling Localization and Describing for End-to-End 3D Dense Captioning

要約

3D 高密度キャプションでは、モデルが入力 3D シーンの理解をさまざまなオブジェクト領域に関連付けられたいくつかのキャプションに変換する必要があります。
既存の方法は、洗練された「検出してから記述」パイプラインを採用しており、多数の手作りコンポーネントを備えた 3D 検出器上に明示的な関係モジュールを構築します。
これらの方法は初期の成功を収めていますが、カスケード パイプラインでは、重複した不正確なボックス推定や乱雑な 3D シーンによりエラーが蓄積する傾向があります。
この論文では、まず、並列デコードを通じてキャプション生成とオブジェクト位置特定のデコードプロセスを分離する、シンプルでありながら効果的な変換フレームワークである Vote2Cap-DETR を提案します。
さらに、オブジェクトの位置特定と説明の生成にはさまざまなレベルのシーン理解が必要であり、共有クエリセットでキャプチャするのは難しい可能性があると主張します。
この目的を達成するために、クエリをローカリゼーション クエリとキャプション クエリに分離してタスク固有の機能をキャプチャする、高度なバージョンである Vote2Cap-DETR++ を提案します。
さらに、より高速な収束とより優れたローカリゼーション パフォーマンスを実現するために、クエリに投票するための反復空間リファインメント戦略を導入します。
また、より正確な説明を行うために、追加の空間情報をキャプション ヘッドに挿入します。
追加機能は省き、ScanRefer と Nr3D という 2 つの一般的に使用されるデータセットに対する広範な実験により、Vote2Cap-DETR と Vote2Cap-DETR++ が従来の「検出してから記述」手法を大幅に上回っていることが実証されました。
コードは https://github.com/ch3cook-fdu/Vote2Cap-DETR で入手可能になります。

要約(オリジナル)

3D dense captioning requires a model to translate its understanding of an input 3D scene into several captions associated with different object regions. Existing methods adopt a sophisticated ‘detect-then-describe’ pipeline, which builds explicit relation modules upon a 3D detector with numerous hand-crafted components. While these methods have achieved initial success, the cascade pipeline tends to accumulate errors because of duplicated and inaccurate box estimations and messy 3D scenes. In this paper, we first propose Vote2Cap-DETR, a simple-yet-effective transformer framework that decouples the decoding process of caption generation and object localization through parallel decoding. Moreover, we argue that object localization and description generation require different levels of scene understanding, which could be challenging for a shared set of queries to capture. To this end, we propose an advanced version, Vote2Cap-DETR++, which decouples the queries into localization and caption queries to capture task-specific features. Additionally, we introduce the iterative spatial refinement strategy to vote queries for faster convergence and better localization performance. We also insert additional spatial information to the caption head for more accurate descriptions. Without bells and whistles, extensive experiments on two commonly used datasets, ScanRefer and Nr3D, demonstrate Vote2Cap-DETR and Vote2Cap-DETR++ surpass conventional ‘detect-then-describe’ methods by a large margin. Codes will be made available at https://github.com/ch3cook-fdu/Vote2Cap-DETR.

arxiv情報

著者 Sijin Chen,Hongyuan Zhu,Mingsheng Li,Xin Chen,Peng Guo,Yinjie Lei,Gang Yu,Taihao Li,Tao Chen
発行日 2023-09-06 13:43:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク