要約
GPT4 の成功を受けて、マルチモーダル大規模言語モデル (MLLM) 研究への関心が高まっています。
この一連の研究は、事前トレーニングされた LLM とビジョン モデルを微調整することによる汎用 LLM の開発に焦点を当てています。
ただし、壊滅的な忘却は、微調整されたモデルが事前トレーニングされたモデルと比較して同様のパフォーマンスを維持できないという悪名高い現象であり、依然としてマルチモーダル LLM (MLLM) に固有の問題として残っています。
この論文では、各 MLLM を画像分類器として扱うことにより、MLLM における壊滅的な忘却を評価するための EMT: Evaluating MulTimodality を紹介します。
まず EMT を適用して、オープンソースの微調整された MLLM をいくつか評価しました。その結果、評価されたほとんどすべての MLLM が、標準的な画像分類タスクにおいてビジョン エンコーダと同じパフォーマンス レベルを維持できないことがわかりました。
さらに、MLLM である LLaVA の微調整を継続し、EMT を利用して微調整中のパフォーマンスを評価します。
興味深いことに、私たちの結果は、画像データセットに対する初期段階の微調整により、テキストと視覚的特徴の位置合わせが強化され、他の画像データセット全体のパフォーマンスが向上することを示唆しています。
ただし、微調整が進むと、画像エンコーダーがフリーズしたままの場合でも、MLLM が幻覚を起こし始め、一般化可能性が大幅に失われます。
私たちの結果は、MLLM が標準的な画像分類タスクに関して視覚モデルと同等のパフォーマンスをまだ実証しておらず、現在の MLLM 微調整手順にはまだ改善の余地があることを示唆しています。
要約(オリジナル)
Following the success of GPT4, there has been a surge in interest in multimodal large language model (MLLM) research. This line of research focuses on developing general-purpose LLMs through fine-tuning pre-trained LLMs and vision models. However, catastrophic forgetting, a notorious phenomenon where the fine-tuned model fails to retain similar performance compared to the pre-trained model, still remains an inherent problem in multimodal LLMs (MLLM). In this paper, we introduce EMT: Evaluating MulTimodality for evaluating the catastrophic forgetting in MLLMs, by treating each MLLM as an image classifier. We first apply EMT to evaluate several open-source fine-tuned MLLMs and we discover that almost all evaluated MLLMs fail to retain the same performance levels as their vision encoders on standard image classification tasks. Moreover, we continue fine-tuning LLaVA, an MLLM and utilize EMT to assess performance throughout the fine-tuning. Interestingly, our results suggest that early-stage fine-tuning on an image dataset improves performance across other image datasets, by enhancing the alignment of text and visual features. However, as fine-tuning proceeds, the MLLMs begin to hallucinate, resulting in a significant loss of generalizability, even when the image encoder remains frozen. Our results suggest that MLLMs have yet to demonstrate performance on par with their vision models on standard image classification tasks and the current MLLM fine-tuning procedure still has room for improvement.
arxiv情報
著者 | Yuexiang Zhai,Shengbang Tong,Xiao Li,Mu Cai,Qing Qu,Yong Jae Lee,Yi Ma |
発行日 | 2023-09-26 05:27:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google