要約
オープンボキャブラリーオブジェクト検出(OVOD)は、人間のような視覚知能を実現するための重要なステップとして、最近大きな注目を集めている。既存のOVOD手法は、視覚言語事前学習モデルから任意の概念の知識を検出器に転送することにより、ターゲット語彙を事前定義されたカテゴリからオープンワールドに拡張する。これまでの手法は目覚ましい成功を収めているが、間接的な監視や、転送可能な概念の制限に悩まされている。本論文では、任意の概念に対する領域とテキストのアライメントを直接学習する、シンプルかつ効果的な手法を提案する。具体的には、提案手法は、任意の概念の擬似ラベリングのために、任意の画像からテキストへのマッピングを学習することを目的とし、Pseudo-Labeling for Arbitrary Concepts (PLAC)と名付けられる。提案手法は、名詞概念に対する標準的なOVODベンチマークで競争力を示し、任意概念に対する参照表現理解ベンチマークで大きな改善を示す。
要約(オリジナル)
Open-vocabulary object detection (OVOD) has recently gained significant attention as a crucial step toward achieving human-like visual intelligence. Existing OVOD methods extend target vocabulary from pre-defined categories to open-world by transferring knowledge of arbitrary concepts from vision-language pre-training models to the detectors. While previous methods have shown remarkable successes, they suffer from indirect supervision or limited transferable concepts. In this paper, we propose a simple yet effective method to directly learn region-text alignment for arbitrary concepts. Specifically, the proposed method aims to learn arbitrary image-to-text mapping for pseudo-labeling of arbitrary concepts, named Pseudo-Labeling for Arbitrary Concepts (PLAC). The proposed method shows competitive performance on the standard OVOD benchmark for noun concepts and a large improvement on referring expression comprehension benchmark for arbitrary concepts.
arxiv情報
著者 | Sunghun Kang,Junbum Cha,Jonghwan Mun,Byungseok Roh,Chang D. Yoo |
発行日 | 2023-12-04 18:29:03+00:00 |
arxivサイト | arxiv_id(pdf) |