Teaching VLMs to Localize Specific Objects from In-context Examples

要約

視覚言語モデル (VLM) は、画像認識、ビデオ理解、視覚的質問応答 (VQA) などのさまざまな視覚タスクに対して明示的にトレーニングされた場合に、優れた能力を示しています。
これらの進歩にもかかわらず、現在の VLM には基本的な認知能力、つまりコンテキストを考慮してシーン内のオブジェクトの位置を特定する学習能力が欠けていることがわかりました。
この作業では、数ショットのパーソナライズされたローカリゼーションのタスクに焦点を当てます。このタスクでは、モデルに注釈付き画像の小さなセット (コンテキスト内の例) (それぞれにカテゴリ ラベルと境界ボックスが付いています) が与えられ、ローカライズのタスクが課されます。
クエリ画像内の同じオブジェクト タイプ。
モデルのパーソナライズされたローカリゼーション機能を引き出すために、ビデオ オブジェクト トラッキング データセットから慎重に厳選されたデータを使用してモデルを微調整するデータ中心のソリューションを紹介します。
複数のショットにわたって同じオブジェクトを追跡する一連のフレームを活用することで、コンテキスト認識を促進する命令調整ダイアログをシミュレートします。
これを強化するために、オブジェクトのラベルを擬似名に置き換える新しい正則化手法を導入し、モデルが事前の知識ではなく視覚的なコンテキストに依存するようにします。
私たちの手法は、パーソナライズされたローカリゼーションに合わせたいくつかのベンチマークで実証されているように、一般化を犠牲にすることなく、少数ショットのローカリゼーション パフォーマンスを大幅に向上させます。
この研究は、VLM のパーソナライズされた数ショット ローカリゼーションを調査およびベンチマークする最初の研究であり、コンテキスト駆動型ビジョン言語アプリケーションにおける将来の研究の基礎を築きます。
私たちのプロジェクトのコードは https://github.com/SivanDoveh/IPLoc で入手できます。

要約(オリジナル)

Vision-Language Models (VLMs) have shown remarkable capabilities across diverse visual tasks, including image recognition, video understanding, and Visual Question Answering (VQA) when explicitly trained for these tasks. Despite these advances, we find that current VLMs lack a fundamental cognitive ability: learning to localize objects in a scene by taking into account the context. In this work, we focus on the task of few-shot personalized localization, where a model is given a small set of annotated images (in-context examples) — each with a category label and bounding box — and is tasked with localizing the same object type in a query image. To provoke personalized localization abilities in models, we present a data-centric solution that fine-tunes them using carefully curated data from video object tracking datasets. By leveraging sequences of frames tracking the same object across multiple shots, we simulate instruction-tuning dialogues that promote context awareness. To reinforce this, we introduce a novel regularization technique that replaces object labels with pseudo-names, ensuring the model relies on visual context rather than prior knowledge. Our method significantly enhances few-shot localization performance without sacrificing generalization, as demonstrated on several benchmarks tailored to personalized localization. This work is the first to explore and benchmark personalized few-shot localization for VLMs, laying a foundation for future research in context-driven vision-language applications. The code for our project is available at https://github.com/SivanDoveh/IPLoc

arxiv情報

著者 Sivan Doveh,Nimrod Shabtay,Wei Lin,Eli Schwartz,Hilde Kuehne,Raja Giryes,Rogerio Feris,Leonid Karlinsky,James Glass,Assaf Arbelle,Shimon Ullman,M. Jehanzeb Mirza
発行日 2024-11-20 13:34:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク