Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs

要約

最近のマルチモーダル大手言語モデル(MLLMS)は、マルチモーダルの問い合わせよりも知覚と推論において大きな進歩を示しており、基礎モデルの新しい研究時代を導いています。
ただし、MLLMSのビジョン言語の不整合は、これらのモデルによって生成されたテキスト応答が、特定のテキストイメージ入力と事実上整合していない重要な課題として浮上しています。
ビジョン言語の不整合に対処するための既存の取り組みは、特殊なビジョン言語コネクタの開発や、多様なドメインからの視覚命令の調整を活用することに焦点を当てています。
この論文では、MLLMのコアアーキテクチャを再検討することにより、この問題に基本的でありながら未開の視点からこの問題に取り組みます。
ほとんどのMLLMは、通常、因果関係のメカニズムからなるデコーダーのみのLLMに基づいて構築されており、以前のモダリティ(画像など)の能力が後のモダリティ(例:テキスト)から情報を組み込む能力を制限します。
この問題に対処するために、画像トークンがテキストトークンに参加できるようにするために、因果関係の注意をモダリティマチュアルな注意(MMA)に解き放つ新しいMLLMであるAkiを提案します。
このシンプルでありながら効果的な設計により、AKIは、追加のパラメーターを導入してトレーニング時間を長くすることなく、12のマルチモーダル理解ベンチマーク(平均で7.2%)で優れたパフォーマンスを実現できます。
当社のMMAデザインは一般的なものであり、さまざまなモダリティにわたってアプリケーションを可能にし、多様なマルチモーダルシナリオに対応するためにスケーラブルです。
このコードはhttps://github.com/sony/akiで公開されています。AKI-4Bモデルをリリースして、さまざまな方向にMLLMのさらなる進歩を促進します。

要約(オリジナル)

Recent Multimodal Large Language Models (MLLMs) have demonstrated significant progress in perceiving and reasoning over multimodal inquiries, ushering in a new research era for foundation models. However, vision-language misalignment in MLLMs has emerged as a critical challenge, where the textual responses generated by these models are not factually aligned with the given text-image inputs. Existing efforts to address vision-language misalignment have focused on developing specialized vision-language connectors or leveraging visual instruction tuning from diverse domains. In this paper, we tackle this issue from a fundamental yet unexplored perspective by revisiting the core architecture of MLLMs. Most MLLMs are typically built on decoder-only LLMs consisting of a causal attention mechanism, which limits the ability of earlier modalities (e.g., images) to incorporate information from later modalities (e.g., text). To address this problem, we propose AKI, a novel MLLM that unlocks causal attention into modality-mutual attention (MMA) to enable image tokens to attend to text tokens. This simple yet effective design allows AKI to achieve superior performance in 12 multimodal understanding benchmarks (+7.2% on average) without introducing additional parameters and increasing training time. Our MMA design is intended to be generic, allowing for application across various modalities, and scalable to accommodate diverse multimodal scenarios. The code is publicly available at https://github.com/sony/aki, and we will release our AKI-4B model to encourage further advancements in MLLMs across various directions.

arxiv情報

著者 Wei-Yao Wang,Zhao Wang,Helen Suzuki,Yoshiyuki Kobayashi
発行日 2025-03-04 13:18:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク