要約
トレーニングされた LLM で開始されるマルチモーダル大規模言語モデル (MLLM) は、まず画像とテキストを位置合わせし、次にマルチモーダル混合入力を微調整します。
ただし、MLLM はテキストのみの命令を壊滅的に忘れます。テキストのみの命令には画像は含まれず、初期 LLM 内で対処できます。
この論文では、テキストのみの対話とマルチモーダル理解の両方に優れた新しい MLLM である Wings を紹介します。
マルチモーダル命令における MLLM の注意を分析すると、テキストのみの忘却は、画像前のテキストから画像後のテキストへの注意の移行に関連していることがわかります。
そこから、注意の移動を補うためのブースト学習器として機能する追加のモジュールを構築します。
補完的な視覚学習者とテキスト学習者は、両側の「翼」のように、各層の注意ブロック内で並列に接続されます。
最初は、画像とテキストの入力が主な注意と並行して動作する視覚学習者に合わせて調整され、視覚要素への焦点のバランスが保たれます。
テキスト学習者は後でアテンションベースのルーティングと連携して統合され、視覚学習者とテキスト学習者の出力をブレンドします。
私たちは、学習者の高い効率を保証するために、低ランク残留注意力 (LoRRA) を設計しています。
私たちの実験結果は、Wings がテキストのみのタスクと視覚的な質問応答タスクの両方において、同等のスケールの MLLM よりも優れていることを示しています。
新しく構築された Interleaved Image-Text (IIT) ベンチマークでは、Wings はテキストのみが豊富なタスクからマルチモーダルが豊富な質問応答タスクまで優れたパフォーマンスを示します。
要約(オリジナル)
Multimodal large language models (MLLMs), initiated with a trained LLM, first align images with text and then fine-tune on multimodal mixed inputs. However, the MLLM catastrophically forgets the text-only instructions, which do not include images and can be addressed within the initial LLM. In this paper, we present Wings, a novel MLLM that excels in both text-only dialogues and multimodal comprehension. Analyzing MLLM attention in multimodal instructions reveals that text-only forgetting is related to the attention shifts from pre-image to post-image text. From that, we construct extra modules that act as the boosted learner to compensate for the attention shift. The complementary visual and textual learners, like ‘wings’ on either side, are connected in parallel within each layer’s attention block. Initially, image and text inputs are aligned with visual learners operating alongside the main attention, balancing focus on visual elements. Textual learners are later collaboratively integrated with attention-based routing to blend the outputs of the visual and textual learners. We design the Low-Rank Residual Attention (LoRRA) to guarantee high efficiency for learners. Our experimental results demonstrate that Wings outperforms equally-scaled MLLMs in both text-only and visual question-answering tasks. On a newly constructed Interleaved Image-Text (IIT) benchmark, Wings exhibits superior performance from text-only-rich to multimodal-rich question-answering tasks.
arxiv情報
| 著者 | Yi-Kai Zhang,Shiyin Lu,Yang Li,Yanqing Ma,Qing-Guo Chen,Zhao Xu,Weihua Luo,Kaifu Zhang,De-Chuan Zhan,Han-Jia Ye |
| 発行日 | 2024-06-05 17:59:40+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google