Reasoning to Attend: Try to Understand How Token Works

要約

現在の大規模マルチモーダル モデル (LMM) で強化された視覚的グラウンディングは、通常、テキスト プロンプトとして $\texttt{}$ トークンに依存し、視覚言語モデル (LLaVA など) と下流のタスク指定モデル (\eg
、サム)。
しかし、それがどのように機能するのかを調べた研究はほとんどないことがわかります。この研究では、まず、$\texttt{}$ トークンと画像トークンの埋め込みの間の意味論的な類似性を計算することによって取得される類似性マップを視覚化します。
LLaVA エンコーダと SAM デコーダの両方の最後の隠れ層から派生します。
興味深いことに、類似性マップのアクティベーション応答に関して驚くべき一貫性が保たれていることがわかりました。これにより、$\texttt{}$ トークンが寄与しているのは画像とテキストのペア内の意味論的な類似性であることが明らかになりました。
具体的には、$\texttt{}$ トークン (テキスト語彙で拡張されたプレースホルダー) は、大規模言語モデル (LLM) が実行されている間に、個々のトークン化された画像パッチ間で広範にクエリを実行して、テキストからペアの画像までのオブジェクトのセマンティクスを照合します。
微調整された。
上記の発見に基づいて、類似性マップから借用した高度に活性化されたポイントの導きの下で、$\textbf{D}$ をどこに配置するかという LMM の回復力のある $\textbf{REA}$soning 機能を促進する READ を紹介します。
注目すべきことに、READ は直観的な設計である類似点モジュール (SasP) を備えており、プラグ アンド プレイ方式で $\texttt{}$ のようなパラダイムにシームレスに適用できます。また、広範な実験が行われています。
ReasonSeg および RefCOCO(+/g) データセットについて。
READ が微調整後に以前のスキルを壊滅的に忘れてしまうかどうかを検証するために、拡張された FP-RefCOCO(+/g) データセットでその生成能力をさらに評価します。
すべてのコードとモデルは https://github.com/rui-qian/READ で公開されています。

要約(オリジナル)

Current Large Multimodal Models (LMMs) empowered visual grounding typically rely on $\texttt{}$ token as a text prompt to jointly optimize the vision-language model (e.g., LLaVA) and the downstream task-specified model (\eg, SAM). However, we observe that little research has looked into how it works.In this work, we first visualize the similarity maps, which are obtained by computing the semantic similarity between the $\texttt{}$ token and the image token embeddings derived from the last hidden layer in both the LLaVA encoder and SAM decoder. Intriguingly, we have found that a striking consistency holds in terms of activation responses in the similarity map,which reveals that what $\texttt{}$ token contributes to is the semantic similarity within image-text pairs. Specifically, $\texttt{}$ token, a placeholder expanded in text vocabulary, extensively queries among individual tokenized image patches to match the semantics of an object from text to the paired image while the Large Language Models (LLMs) are being fine-tuned. Upon the above findings, we present READ, which facilitates LMMs’ resilient $\textbf{REA}$soning capability of where to atten$\textbf{D}$ under the guidance of highly activated points borrowed from similarity maps. Remarkably, READ features an intuitive design, Similarity as Points module (SasP), which can be seamlessly applied to $\texttt{}$-like paradigms in a plug-and-play fashion.Also, extensive experiments have been conducted on the ReasonSeg and RefCOCO(+/g) datasets. To validate whether READ suffers from catastrophic forgetting of previous skills after fine-tuning, we further assess its generation ability on an augmented FP-RefCOCO(+/g) dataset. All codes and models are publicly available at https://github.com/rui-qian/READ.

arxiv情報

著者 Rui Qian,Xin Yin,Dejing Dou
発行日 2024-12-23 17:44:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク