要約
効果的なマルチモーダル推論は、視覚表現と言語表現の整合に依存しますが、視覚言語モデル(VLM)がこのアライメントを達成するメカニズムは、よく理解されていないままです。
視覚命令チューニング中に線形アダプターをトレーニングすることによってのみ接続されて、冷凍大型言語モデル(LLM)と凍結視力変圧器(VIT)を意図的に維持する方法論的フレームワークを紹介します。
この設計は、私たちのアプローチの基本です。言語モデルを凍結することにより、視覚データに適応せずに元の言語表現を維持することを保証します。
その結果、線形アダプターは、言語モデルが微調整を通じて専門的な視覚的理解を開発できるようにするのではなく、視覚的特徴をLLMの既存の表現空間に直接マッピングする必要があります。
私たちの実験設計は、分析プローブとして、LLMの事前に訓練されたスパース自動エンコーダー(SAE)を使用することをユニークに可能にします。
これらのSAEは、変更されていない言語モデルと完全に整合したままであり、学習した言語機能表現のスナップショットとして機能します。
SAE再構成エラー、スパースパターン、および特徴SAEの説明を体系的に分析することにより、視覚的表現が言語特徴表現と徐々に整合し、中間層に収束する層ごとの進行を明らかにします。
これは、VIT出力と初期LLM層の間の根本的な不整合を示唆しており、現在のアダプターベースのアーキテクチャがクロスモーダル表現学習を最適に促進するかどうかについて重要な疑問を提起します。
要約(オリジナル)
Effective multimodal reasoning depends on the alignment of visual and linguistic representations, yet the mechanisms by which vision-language models (VLMs) achieve this alignment remain poorly understood. We introduce a methodological framework that deliberately maintains a frozen large language model (LLM) and a frozen vision transformer (ViT), connected solely by training a linear adapter during visual instruction tuning. This design is fundamental to our approach: by keeping the language model frozen, we ensure it maintains its original language representations without adaptation to visual data. Consequently, the linear adapter must map visual features directly into the LLM’s existing representational space rather than allowing the language model to develop specialized visual understanding through fine-tuning. Our experimental design uniquely enables the use of pre-trained sparse autoencoders (SAEs) of the LLM as analytical probes. These SAEs remain perfectly aligned with the unchanged language model and serve as a snapshot of the learned language feature-representations. Through systematic analysis of SAE reconstruction error, sparsity patterns, and feature SAE descriptions, we reveal the layer-wise progression through which visual representations gradually align with language feature representations, converging in middle-to-later layers. This suggests a fundamental misalignment between ViT outputs and early LLM layers, raising important questions about whether current adapter-based architectures optimally facilitate cross-modal representation learning.
arxiv情報
著者 | Constantin Venhoff,Ashkan Khakzar,Sonia Joseph,Philip Torr,Neel Nanda |
発行日 | 2025-06-13 17:34:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google