Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models

要約

大規模な言語モデルは、命令に従うデータで微調整すると、さまざまなタスクで強化されたゼロショット パフォーマンスを示します。
マルチモーダル命令追従モデルは、テキストと画像の両方を統合することでこれらの機能を拡張します。
ただし、MiniGPT-4 などの既存のモデルは、複数の画像が含まれるシナリオで対話の一貫性を維持するという課題に直面しています。
主な理由は、この重要なアプリケーションに特化したデータセットが存在しないことです。
これらのギャップを埋めるために、複数の画像にわたるオープンエンドの対話のためのマルチモーダルな命令追従モデルである SparklesChat を紹介します。
トレーニングをサポートするために、単語レベルでインターリーブされたマルチ画像とテキストのインタラクションに合わせて調整された初の機械生成対話データセットである SparklesDialogue を導入します。
さらに、複数の画像と対話ターンにわたるモデルの会話能力を定量的に評価するための GPT 支援ベンチマークである SparklesEval を構築します。
私たちの実験では、複数の画像と対話ターンにわたる理解と推論における SparklesChat の有効性を検証しました。
具体的には、SparklesChat は、BISON バイナリ画像選択タスクや NLVR2 視覚推論タスクなど、確立された視覚と言語のベンチマークで MiniGPT-4 を上回りました。
さらに、SparklesChat は SparklesEval で 10 点中 8.56 点を獲得し、MiniGPT-4 のスコア 3.91 を大幅に上回り、GPT-4 のスコア 9.26 に近づきました。
定性的評価は、現実世界のアプリケーションの処理における SparklesChat の汎用性をさらに実証します。
すべてのリソースは https://github.com/HYPJUDY/Sparkles で入手できます。

要約(オリジナル)

Large language models exhibit enhanced zero-shot performance on various tasks when fine-tuned with instruction-following data. Multimodal instruction-following models extend these capabilities by integrating both text and images. However, existing models such as MiniGPT-4 face challenges in maintaining dialogue coherence in scenarios involving multiple images. A primary reason is the lack of a specialized dataset for this critical application. To bridge these gaps, we present SparklesChat, a multimodal instruction-following model for open-ended dialogues across multiple images. To support the training, we introduce SparklesDialogue, the first machine-generated dialogue dataset tailored for word-level interleaved multi-image and text interactions. Furthermore, we construct SparklesEval, a GPT-assisted benchmark for quantitatively assessing a model’s conversational competence across multiple images and dialogue turns. Our experiments validate the effectiveness of SparklesChat in understanding and reasoning across multiple images and dialogue turns. Specifically, SparklesChat outperformed MiniGPT-4 on established vision-and-language benchmarks, including the BISON binary image selection task and the NLVR2 visual reasoning task. Moreover, SparklesChat scored 8.56 out of 10 on SparklesEval, substantially exceeding MiniGPT-4’s score of 3.91 and nearing GPT-4’s score of 9.26. Qualitative evaluations further demonstrate SparklesChat’s generality in handling real-world applications. All resources will be available at https://github.com/HYPJUDY/Sparkles.

arxiv情報

著者 Yupan Huang,Zaiqiao Meng,Fangyu Liu,Yixuan Su,Nigel Collier,Yutong Lu
発行日 2023-08-31 05:15:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク