要約
3D 高密度キャプションは、自然言語を通じて 3D シーンの包括的な理解を達成するための基礎として機能します。
最近、特に屋内環境で目覚ましい成果を上げています。
しかし、屋外シーンでの 3D 高密度キャプションの探求は、次の 2 つの大きな課題によって妨げられています。1) 屋内シーンと屋外シーンの間の \textbf{ドメイン ギャップ} (ダイナミクスやまばらな視覚入力など) により、既存の屋内手法を直接適用することが困難になります。
;
2) \textbf{データ不足} には、屋外シーン向けに特別に調整された包括的なボックスとキャプションのペアの注釈が含まれています。
この目的を達成するために、屋外 3D 高密度キャプションという新しいタスクを導入します。
入力として、LiDAR 点群とパノラマ カメラ リグによってキャプチャされた RGB 画像のセットを想定します。
予期される出力は、キャプション付きのオブジェクト ボックスのセットです。
このタスクに取り組むために、我々は TOD3Cap ネットワークを提案します。このネットワークは BEV 表現を活用してオブジェクト ボックスの提案を生成し、Relation Q-Former と LLaMA-Adapter を統合してこれらのオブジェクトのリッチ キャプションを生成します。
また、TOD3Cap データセットも紹介します。これは屋外シーンでの 3D 高密度キャプション用として私たちが知る限り最大のもので、850 シーンからの 64.3K の屋外オブジェクトの 230 万個の記述が含まれています。
特に、当社の TOD3Cap ネットワークは、屋外シーンで 3D オブジェクトの位置を効果的に特定し、キャプションを付けることができ、ベースライン手法を大幅に上回ります (+9.6 CiDEr@0.5IoU)。
コード、データ、モデルは https://github.com/jxbbb/TOD3Cap で公開されています。
要約(オリジナル)
3D dense captioning stands as a cornerstone in achieving a comprehensive understanding of 3D scenes through natural language. It has recently witnessed remarkable achievements, particularly in indoor settings. However, the exploration of 3D dense captioning in outdoor scenes is hindered by two major challenges: 1) the \textbf{domain gap} between indoor and outdoor scenes, such as dynamics and sparse visual inputs, makes it difficult to directly adapt existing indoor methods; 2) the \textbf{lack of data} with comprehensive box-caption pair annotations specifically tailored for outdoor scenes. To this end, we introduce the new task of outdoor 3D dense captioning. As input, we assume a LiDAR point cloud and a set of RGB images captured by the panoramic camera rig. The expected output is a set of object boxes with captions. To tackle this task, we propose the TOD3Cap network, which leverages the BEV representation to generate object box proposals and integrates Relation Q-Former with LLaMA-Adapter to generate rich captions for these objects. We also introduce the TOD3Cap dataset, the largest one to our knowledge for 3D dense captioning in outdoor scenes, which contains 2.3M descriptions of 64.3K outdoor objects from 850 scenes. Notably, our TOD3Cap network can effectively localize and caption 3D objects in outdoor scenes, which outperforms baseline methods by a significant margin (+9.6 CiDEr@0.5IoU). Code, data, and models are publicly available at https://github.com/jxbbb/TOD3Cap.
arxiv情報
著者 | Bu Jin,Yupeng Zheng,Pengfei Li,Weize Li,Yuhang Zheng,Sujie Hu,Xinyu Liu,Jinwei Zhu,Zhijie Yan,Haiyang Sun,Kun Zhan,Peng Jia,Xiaoxiao Long,Yilun Chen,Hao Zhao |
発行日 | 2024-03-28 17:12:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google