要約
オープン語彙オブジェクト検出 (OVD) モデルは、その広範なトレーニング データと多数のパラメーターのため、大規模マルチモーダル モデル (LMM) とみなされます。
主流の OVD モデルは、色や材質などの粒度の細かい属性に焦点を当てるのではなく、オブジェクトの粒度の粗いカテゴリを優先するため、特定の属性で指定されたオブジェクトを識別できませんでした。
ただし、OVD モデルは、豊富な属性単語を含む大規模な画像とテキストのペアで事前学習されており、その潜在特徴空間は、グローバル テキスト特徴を、強調表示することなく、きめの細かい属性トークンの線形構成として表現できます。
したがって、この論文では、明示的な線形空間で粒度の細かい属性を強調表示することで属性レベルの検出能力を向上させる、凍結された主流 OVD モデルに対する普遍的で明示的なアプローチを提案します。
まず、LLM を利用して、ゼロショット プロンプト タスクとして入力テキスト内の属性単語を強調表示します。
次に、トークン マスクを戦略的に調整することで、OVD モデルのテキスト エンコーダーはグローバル テキストと属性固有の特徴の両方を抽出します。これらは線形空間内の 2 つのベクトルとして明示的に合成され、検出タスク用の新しい属性が強調表示された特徴を形成します。
スカラーは手動で作成されるか、2 つのベクトルの両方を再重み付けするように学習されます。
特に、これらのスカラーは異なる OVD モデル間でシームレスに転送でき、これはそのような明示的な線形構成が普遍的であることを証明しています。
FG-OVD データセットの経験的評価は、私たちの提案手法がさまざまな主流モデルのきめ細かい属性レベルの OVD を均一に改善し、新しい最先端のパフォーマンスを達成することを示しています。
要約(オリジナル)
Open-vocabulary object detection (OVD) models are considered to be Large Multi-modal Models (LMM), due to their extensive training data and a large number of parameters. Mainstream OVD models prioritize object coarse-grained category rather than focus on their fine-grained attributes, e.g., colors or materials, thus failed to identify objects specified with certain attributes. However, OVD models are pretrained on large-scale image-text pairs with rich attribute words, whose latent feature space can represent the global text feature as a linear composition of fine-grained attribute tokens without highlighting them. Therefore, we propose in this paper a universal and explicit approach for frozen mainstream OVD models that boosts their attribute-level detection capabilities by highlighting fine-grained attributes in explicit linear space. Firstly, a LLM is leveraged to highlight attribute words within the input text as a zero-shot prompted task. Secondly, by strategically adjusting the token masks, the text encoders of OVD models extract both global text and attribute-specific features, which are then explicitly composited as two vectors in linear space to form the new attribute-highlighted feature for detection tasks, where corresponding scalars are hand-crafted or learned to reweight both two vectors. Notably, these scalars can be seamlessly transferred among different OVD models, which proves that such an explicit linear composition is universal. Empirical evaluation on the FG-OVD dataset demonstrates that our proposed method uniformly improves fine-grained attribute-level OVD of various mainstream models and achieves new state-of-the-art performance.
arxiv情報
著者 | Yuqi Ma,Mengyin Liu,Chao Zhu,Xu-Cheng Yin |
発行日 | 2024-09-24 14:43:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google