Large Vision-Language Model Alignment and Misalignment: A Survey Through the Lens of Explainability

要約

大規模視覚言語モデル(LVLM)は、視覚情報とテキスト情報の両方を処理する顕著な能力を示している。しかし、視覚表現と言語表現の間のアライメントという重要な課題は、完全には理解されていない。本調査では、説明可能性のレンズを通して、LVLMにおけるアライメントとミスアライメントを包括的に検討する。まず、アライメントの基本を検証し、その表現的、行動的側面、トレーニング方法論、理論的基礎を探る。次に、オブジェクト、属性、関係性のミスアライメントという3つの意味レベルにわたるミスアライメント現象を分析する。その結果、ミスアライメントはデータレベル、モデルレベル、推論レベルといった複数のレベルでの課題から生じることが明らかになった。我々は、既存の緩和戦略を包括的にレビューし、それらをパラメータ凍結アプローチとパラメータチューニングアプローチに分類する。最後に、標準化された評価プロトコルと綿密な説明可能性研究の必要性を強調し、将来有望な研究の方向性を概説する。

要約(オリジナル)

Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities in processing both visual and textual information. However, the critical challenge of alignment between visual and linguistic representations is not fully understood. This survey presents a comprehensive examination of alignment and misalignment in LVLMs through an explainability lens. We first examine the fundamentals of alignment, exploring its representational and behavioral aspects, training methodologies, and theoretical foundations. We then analyze misalignment phenomena across three semantic levels: object, attribute, and relational misalignment. Our investigation reveals that misalignment emerges from challenges at multiple levels: the data level, the model level, and the inference level. We provide a comprehensive review of existing mitigation strategies, categorizing them into parameter-frozen and parameter-tuning approaches. Finally, we outline promising future research directions, emphasizing the need for standardized evaluation protocols and in-depth explainability studies.

arxiv情報

著者 Dong Shu,Haiyan Zhao,Jingyu Hu,Weiru Liu,Lu Cheng,Mengnan Du
発行日 2025-01-02 16:53:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク