TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection

要約

タスク指向のオブジェクト検出は、特定のタスクを実行するのに適したオブジェクトを見つけることを目的としています。
挑戦的なタスクとして、視覚的なデータ処理と、あいまいなセマンティクスの下での推論を同時に行う必要があります。
最近のソリューションはオールインワンモデルが主流です。
ただし、オブジェクト検出バックボーンはテキスト監視なしで事前トレーニングされています。
したがって、タスク要件を組み込むために、複雑なモデルは非常に不均衡で希少なデータセットで広範な学習を受け、その結果、パフォーマンスの上限が設定され、トレーニングに労力がかかり、一般化性が低くなります。
対照的に、私たちは、一般的なオブジェクトの検出とタスクに基づくオブジェクトの選択で構成される、より自然な 2 段階の設計である TaskCLIP を提案します。
特に後者の場合、私たちはバックボーンとして最近成功した大規模ビジョン言語モデル (VLM) に頼っており、豊富な意味論的知識と画像とテキストの均一な埋め込みスペースを提供します。
それにもかかわらず、VLM を単純に適用すると、オブジェクト画像の埋め込みとその視覚的属性 (主に形容詞句) の間の不整合が原因で、次善の品質が発生します。
この目的を達成するために、事前トレーニングされた VLM の後にトランスベースのアライナーを設計し、両方の埋め込みを再調整します。
最後に、トレーニング可能なスコア関数を使用して、オブジェクト選択のための VLM マッチング結果を後処理します。
実験結果は、TaskCLIP が最先端の DETR ベースのモデル TOIST を 3.5% 上回っており、トレーニングと推論の両方に 1 台の NVIDIA RTX 4090 のみを必要とすることを示しています。

要約(オリジナル)

Task-oriented object detection aims to find objects suitable for accomplishing specific tasks. As a challenging task, it requires simultaneous visual data processing and reasoning under ambiguous semantics. Recent solutions are mainly all-in-one models. However, the object detection backbones are pre-trained without text supervision. Thus, to incorporate task requirements, their intricate models undergo extensive learning on a highly imbalanced and scarce dataset, resulting in capped performance, laborious training, and poor generalizability. In contrast, we propose TaskCLIP, a more natural two-stage design composed of general object detection and task-guided object selection. Particularly for the latter, we resort to the recently successful large Vision-Language Models (VLMs) as our backbone, which provides rich semantic knowledge and a uniform embedding space for images and texts. Nevertheless, the naive application of VLMs leads to sub-optimal quality, due to the misalignment between embeddings of object images and their visual attributes, which are mainly adjective phrases. To this end, we design a transformer-based aligner after the pre-trained VLMs to re-calibrate both embeddings. Finally, we employ a trainable score function to post-process the VLM matching results for object selection. Experimental results demonstrate that our TaskCLIP outperforms the state-of-the-art DETR-based model TOIST by 3.5% and only requires a single NVIDIA RTX 4090 for both training and inference.

arxiv情報

著者 Hanning Chen,Wenjun Huang,Yang Ni,Sanggeon Yun,Yezi Liu,Fei Wen,Alvaro Velasquez,Hugo Latapie,Mohsen Imani
発行日 2024-09-06 12:10:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク