MaskInversion: Localized Embeddings via Optimization of Explainability Maps

要約

CLIP などの視覚言語基盤モデルは、グローバルな視覚言語の調整において多大な成果を上げていますが、特定の画像領域の表現を作成する場合には依然としていくつかの制限があります。
この問題に対処するために、CLIP などの事前トレーニングされた基礎モデルの特徴表現を利用して、テスト時にマスクによって指定されたクエリ画像領域のコンテキスト認識型埋め込みを生成するメソッドである MaskInversion を提案します。
MaskInversion は、埋め込みトークンの初期化から始まり、基礎モデルから導出されたその説明可能性マップをクエリ マスクと比較します。
その後、埋め込みトークンは、説明可能性マップとクエリ マスク間の不一致を最小限に抑えることによってクエリ領域に近似するように調整されます。
このプロセス中、埋め込みベクトルのみが更新され、基礎となる基礎モデルはフリーズされたままになり、事前トレーニングされたモデルで MaskInversion を使用できるようになります。
説明可能性マップの導出には勾配の計算が含まれ、これはコストがかかる可能性があるため、この計算を簡素化する勾配分解戦略を提案します。
学習された領域表現は、オープン語彙クラスの検索、表現の理解、局所的なキャプション付けや画像生成など、幅広いタスクに使用できます。
PascalVOC、MSCOCO、RefCOCO、OpenImagesV7 などのいくつかのデータセット上のすべてのタスクで提案された方法を評価し、他の SOTA アプローチと比較してその機能を示します。

要約(オリジナル)

Vision-language foundation models such as CLIP have achieved tremendous results in global vision-language alignment, but still show some limitations in creating representations for specific image regions. % To address this problem, we propose MaskInversion, a method that leverages the feature representations of pre-trained foundation models, such as CLIP, to generate a context-aware embedding for a query image region specified by a mask at test time. MaskInversion starts with initializing an embedding token and compares its explainability map, derived from the foundation model, to the query mask. The embedding token is then subsequently refined to approximate the query region by minimizing the discrepancy between its explainability map and the query mask. During this process, only the embedding vector is updated, while the underlying foundation model is kept frozen allowing to use MaskInversion with any pre-trained model. As deriving the explainability map involves computing its gradient, which can be expensive, we propose a gradient decomposition strategy that simplifies this computation. The learned region representation can be used for a broad range of tasks, including open-vocabulary class retrieval, referring expression comprehension, as well as for localized captioning and image generation. We evaluate the proposed method on all those tasks on several datasets such as PascalVOC, MSCOCO, RefCOCO, and OpenImagesV7 and show its capabilities compared to other SOTA approaches.

arxiv情報

著者 Walid Bousselham,Sofian Chaybouti,Christian Rupprecht,Vittorio Ferrari,Hilde Kuehne
発行日 2024-07-29 14:21:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク