要約
マルチモーダル大規模言語モデルは、画像とテキストのペアでの事前トレーニングと、教師付き視覚言語命令データでの微調整という 2 段階のトレーニング プロセスを通じて、命令追従機能を獲得します。
最近の研究では、大規模な言語モデルは、限られた量の高品質な命令追従データでも満足のいく結果を達成できることが示されています。
この論文では、MiniGPT-4 のアライメント データセットで使用される命令に従うデータの約 6% に相当する、わずか 200 個の例で構成される小さなデータセットで微調整された struct GPT-4 を紹介します。
まず、マルチモーダル命令データの品質にアクセスするためのいくつかの指標を提案します。
これらの指標に基づいて、低品質の視覚言語データを自動的に識別してフィルタリングするための、シンプルで効果的なデータ セレクターを紹介します。
この方法を採用することにより、struct GPT-4 はさまざまな評価 (視覚的な質問応答、GPT-4 の優先度など) においてオリジナルの MiniGPT-4 よりも優れています。
全体として、私たちの調査結果は、マルチモーダルな大規模言語モデルがより良い出力を生成できるようにするには、少ないながらも高品質の命令チューニング データが効率的であることを示しています。
要約(オリジナル)
Multimodal large language models acquire their instruction-following capabilities through a two-stage training process: pre-training on image-text pairs and fine-tuning on supervised vision-language instruction data. Recent studies have shown that large language models can achieve satisfactory results even with a limited amount of high-quality instruction-following data. In this paper, we introduce InstructionGPT-4, which is fine-tuned on a small dataset comprising only 200 examples, amounting to approximately 6% of the instruction-following data used in the alignment dataset for MiniGPT-4. We first propose several metrics to access the quality of multimodal instruction data. Based on these metrics, we present a simple and effective data selector to automatically identify and filter low-quality vision-language data. By employing this method, InstructionGPT-4 outperforms the original MiniGPT-4 on various evaluations (e.g., visual question answering, GPT-4 preference). Overall, our findings demonstrate that less but high-quality instruction tuning data is efficient to enable multimodal large language models to generate better output.
arxiv情報
著者 | Lai Wei,Zihao Jiang,Weiran Huang,Lichao Sun |
発行日 | 2023-08-23 11:27:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google