要約
現在の大規模なマルチモーダルモデル(LMMS)は、視覚言語モデル(LLAVAなど)とダウンストリームタスク固有のモデル(SAMなど)を共同で最適化するためのテキストプロンプトとして$ \ texttt {} $トークンに依存しています。
ただし、この作業では、最初に類似性マップを視覚化します。これは、$ \ texttt {} $トークンとLlavaエンコーダーの両方の最後の隠れレイヤーとSam Decoderの両方から導出された画像トークン埋め込みを計算することによって得られる類似性マップを視覚化します。
興味深いことに、類似性マップのアクティベーション応答の観点から印象的な一貫性が保持されることがわかりました。
具体的には、テキストの語彙で拡張されたプレースホルダーである$ \ texttt {} $トークンは、個々のトークン化された画像パッチ間で広範囲にクエリをして、テキストからペアの画像までのオブジェクトのセマンティクスを一致させますが、大きな言語モデル(LLMS)は微調整されています。
上記の調査結果を提示すると、類似性マップから借用された高度にアクティブ化されたポイントのガイダンスの下で、$ \ textbf {d} $をアッテンする場所のlmmsの回復力のある$ \ textbf {rea} $の音響能力を促進します。
驚くべきことに、読み取りは、プラグアンドプレイの方法でパラダイムのように、$ \ texttt {} $にシームレスに適用できる、ポイントモジュール(SASP)との類似性、類似性の直感的なデザインを特徴としています。
また、ReasonSegおよびRefcoco(+/g)データセットで広範な実験が行われています。
読み取りが微調整後の以前のスキルの壊滅的な忘れに苦しむかどうかを検証するために、増強されたFP-Refcoco(+/g)データセットでの生成能力をさらに評価します。
すべてのコードとモデルは、https://github.com/rui-qian/readで公開されています。
要約(オリジナル)
Current Large Multimodal Models (LMMs) empowered visual grounding typically rely on $\texttt{}$ tokens as a text prompt to jointly optimize the vision-language model (e.g., LLaVA) and the downstream task-specific model (e.g., SAM). However, we observe that little research has looked into how it works.In this work, we first visualize the similarity maps, which are obtained by computing the semantic similarity between the $\texttt{}$ token and the image token embeddings derived from the last hidden layer in both the LLaVA encoder and SAM decoder. Intriguingly, we have found that a striking consistency holds in terms of activation responses in the similarity map, which reveals that what the $\texttt{}$ token contributes to is semantic similarity within image-text pairs. Specifically, the $\texttt{}$ token, a placeholder expanded in text vocabulary, extensively queries among individual tokenized image patches to match the semantics of an object from text to the paired image, while the Large Language Models (LLMs) are being fine-tuned. Upon the above findings, we present READ, which facilitates LMMs’ resilient $\textbf{REA}$soning capability of where to atten$\textbf{D}$ under the guidance of highly activated points borrowed from similarity maps. Remarkably, READ features an intuitive design, Similarity as Points module (SasP), which can be seamlessly applied to $\texttt{}$-like paradigms in a plug-and-play fashion. Also, extensive experiments have been conducted on ReasonSeg and RefCOCO(+/g) datasets. To validate whether READ suffers from catastrophic forgetting of previous skills after fine-tuning, we further assess its generation ability on an augmented FP-RefCOCO(+/g) dataset. All codes and models are publicly available at https://github.com/rui-qian/READ.
arxiv情報
著者 |
Rui Qian,Xin Yin,Dejing Dou |
発行日 |
2025-03-06 04:11:30+00:00 |
arxivサイト |
arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google