要約
マルチモーダルな人間の入力と通信するための自然で意味のある応答を生成することは、大規模視覚言語モデル (LVLM) の基本的な機能です。
現在のオープンソース LVLM は、シングル ターン、単一イメージ入力などの単純化されたシナリオでは有望なパフォーマンスを示しますが、マルチ ターンおよびマルチ イメージを使用した長いコンテキスト履歴の指示に従うなど、現実世界の会話シナリオでは不十分です。
既存の LVLM ベンチマークは主に単一選択の質問や短い形式の回答に焦点を当てており、現実世界の人間と AI のインタラクション アプリケーションにおける LVLM の機能を適切に評価していません。
したがって、マルチターンおよびマルチイメージ会話における LVLM の能力を評価および改善するように設計された、包括的なベンチマークである MMDU と大規模な命令チューニング データセットである MMDU-45k を紹介します。
クラスタリング アルゴリズムを使用して、オープンソースの Wikipedia から関連する画像とテキストの説明を見つけ出し、GPT-4o モデルの支援を受けてヒューマン アノテーターによって質問と回答のペアを構築します。
MMDU には最大 18,000 個の画像 + テキスト トークン、20 個の画像、27 ターンがあり、これは以前のベンチマークより少なくとも 5 倍長く、現在の LVLM に課題をもたらします。
MMDU を使用した 15 の代表的な LVLM の詳細な分析により、オープンソース LVLM は、会話型命令チューニング データが限られているため、クローズドソースの LVLM に比べて遅れていることが明らかになりました。
MMDU-45k でのオープンソース LVLM の ffne チューニングがこのギャップに大幅に対処し、より長く正確な会話を生成し、MMDU と既存のベンチマークのスコアを向上させることを実証します (MMStar: +1.1%、MathVista: +1.5%、ChartQA:+)
1.2%)。
私たちの貢献は、現在の LVLM モデルと現実世界のアプリケーションの需要との間のギャップを埋める道を切り開きます。
このプロジェクトは https://github.com/Liuziyu77/MMDU で入手できます。
要約(オリジナル)
Generating natural and meaningful responses to communicate with multi-modal human inputs is a fundamental capability of Large Vision-Language Models(LVLMs). While current open-source LVLMs demonstrate promising performance in simplified scenarios such as single-turn single-image input, they fall short in real-world conversation scenarios such as following instructions in a long context history with multi-turn and multi-images. Existing LVLM benchmarks primarily focus on single-choice questions or short-form responses, which do not adequately assess the capabilities of LVLMs in real-world human-AI interaction applications. Therefore, we introduce MMDU, a comprehensive benchmark, and MMDU-45k, a large-scale instruction tuning dataset, designed to evaluate and improve LVLMs’ abilities in multi-turn and multi-image conversations. We employ the clustering algorithm to ffnd the relevant images and textual descriptions from the open-source Wikipedia and construct the question-answer pairs by human annotators with the assistance of the GPT-4o model. MMDU has a maximum of 18k image+text tokens, 20 images, and 27 turns, which is at least 5x longer than previous benchmarks and poses challenges to current LVLMs. Our in-depth analysis of 15 representative LVLMs using MMDU reveals that open-source LVLMs lag behind closed-source counterparts due to limited conversational instruction tuning data. We demonstrate that ffne-tuning open-source LVLMs on MMDU-45k signiffcantly address this gap, generating longer and more accurate conversations, and improving scores on MMDU and existing benchmarks (MMStar: +1.1%, MathVista: +1.5%, ChartQA:+1.2%). Our contributions pave the way for bridging the gap between current LVLM models and real-world application demands. This project is available at https://github.com/Liuziyu77/MMDU.
arxiv情報
著者 | Ziyu Liu,Tao Chu,Yuhang Zang,Xilin Wei,Xiaoyi Dong,Pan Zhang,Zijian Liang,Yuanjun Xiong,Yu Qiao,Dahua Lin,Jiaqi Wang |
発行日 | 2024-06-17 17:59:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google