要約
3Dデンスキャプションは、関連するオブジェクト領域にローカライズされた複数のキャプションを生成することを目的としている。既存の方法は、多数の手作りコンポーネントを備えた洗練された「検出-その後-記述」パイプラインに従う。しかし、これらの手作りコンポーネントは、異なるシーン間の乱雑なオブジェクトの空間分布やクラス分布を考慮すると、最適とは言い難い性能をもたらす。本論文では、最近よく使われているDETR(Develope Textbf{DE}tection)をベースに、シンプルかつ効果的な変換器フレームワークVote2Cap-DETRを提案する。本フレームワークは先行技術と比較して、以下のような魅力的な利点があります。1) 多くの手作り部品に頼ることなく、我々の方法は、学習可能な投票クエリ駆動オブジェクトデコーダと、集合予測方式で高密度キャプションを生成するキャプションデコーダを備えた完全変換エンコーダ-デコーダアーキテクチャに基づいている。2) 2段階の方式とは対照的に、本方式は1段階で検出とキャプション付けを行うことができる。3) ScanReferとNr3Dの2つの一般的なデータセットで実験を行った結果、Vote2Cap-DETRは、CIDEr@0.5IoU、それぞれ11.13%、7.11%で現在の最先端技術を上回ることが実証されました。コードは近日公開予定です。
要約(オリジナル)
3D dense captioning aims to generate multiple captions localized with their associated object regions. Existing methods follow a sophisticated “detect-then-describe” pipeline equipped with numerous hand-crafted components. However, these hand-crafted components would yield suboptimal performance given cluttered object spatial and class distributions among different scenes. In this paper, we propose a simple-yet-effective transformer framework Vote2Cap-DETR based on recent popular \textbf{DE}tection \textbf{TR}ansformer (DETR). Compared with prior arts, our framework has several appealing advantages: 1) Without resorting to numerous hand-crafted components, our method is based on a full transformer encoder-decoder architecture with a learnable vote query driven object decoder, and a caption decoder that produces the dense captions in a set-prediction manner. 2) In contrast to the two-stage scheme, our method can perform detection and captioning in one-stage. 3) Without bells and whistles, extensive experiments on two commonly used datasets, ScanRefer and Nr3D, demonstrate that our Vote2Cap-DETR surpasses current state-of-the-arts by 11.13\% and 7.11\% in CIDEr@0.5IoU, respectively. Codes will be released soon.
arxiv情報
著者 | Sijin Chen,Hongyuan Zhu,Xin Chen,Yinjie Lei,Tao Chen,Gang YU |
発行日 | 2023-01-06 13:46:45+00:00 |
arxivサイト | arxiv_id(pdf) |