要約
マルチモーダル大規模言語モデルは通常 2 段階でトレーニングされます。最初は画像とテキストのペアで事前トレーニングし、次に教師付き視覚言語命令データを使用して微調整します。
最近の研究では、大規模な言語モデルは、限られた量の高品質な命令追従データでも満足のいく結果を達成できることが示されています。
この論文では、MiniGPT-4 のアライメント データセットで使用される命令に従うデータの約 6% に相当する、わずか 200 個の例で構成される小さなデータセットで微調整された struct GPT-4 を紹介します。
これを達成するために、まずマルチモーダル命令データの品質にアクセスするためのいくつかの指標を提案します。
これらの指標に基づいて、低品質の視覚言語データを自動的に識別してフィルタリングする、効果的でトレーニング可能なデータ セレクターを紹介します。
この方法を採用することにより、struct GPT-4 はさまざまな評価においてオリジナルの MiniGPT-4 を上回ります。
全体として、私たちの調査結果は、マルチモーダルな大規模言語モデルがより良い出力を生成できるようにするには、少ないながらも高品質の命令チューニング データが効率的であることを示しています。
私たちのコードは https://github.com/waltonfuture/struct GPT-4 で入手できます。
要約(オリジナル)
Multimodal large language models are typically trained in two stages: first pre-training on image-text pairs, and then fine-tuning using supervised vision-language instruction data. Recent studies have shown that large language models can achieve satisfactory results even with a limited amount of high-quality instruction-following data. In this paper, we introduce InstructionGPT-4, which is fine-tuned on a small dataset comprising only 200 examples, amounting to approximately 6\% of the instruction-following data used in the alignment dataset for MiniGPT-4. To achieve this, we first propose several metrics to access the quality of multimodal instruction data. Based on these metrics, we present an effective and trainable data selector to automatically identify and filter low-quality vision-language data. By employing this method, InstructionGPT-4 outperforms the original MiniGPT-4 on various evaluations. Overall, our findings demonstrate that less but high-quality instruction tuning data is efficient in enabling multimodal large language models to generate better output. Our code is available at https://github.com/waltonfuture/InstructionGPT-4.
arxiv情報
著者 | Lai Wei,Zihao Jiang,Weiran Huang,Lichao Sun |
発行日 | 2023-10-11 14:49:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google