Towards Robust Instruction Tuning on Multimodal Large Language Models

要約

マルチタスクの命令に従うデータに対する大規模言語モデル (LLM) の微調整は、新しいタスクでのゼロショット能力を向上させるための強力な学習パラダイムであることが証明されています。
高品質な命令に従うデータの生成と選択に関する最近の研究では、特定のタスクに対するモデルが理解できる命令を考え出し、LLM で生成されたデータを慎重にフィルタリングするために、多量の人的労働が必要です。
この研究では、マルチモーダル タスクに INSTRAUG という名前の自動命令拡張メソッドを導入します。
これは、いくつかの基本的で単純なメタ命令から始まりますが、命令に従うデータセットを 30 倍に拡張することができます。
ベンチマーク MULTIINSTRUCT と InstructBLIP に従う 2 つの一般的なマルチモーダル命令の結果は、INSTRAUG が 12 個のマルチモーダル タスクにわたるマルチモーダル大規模言語モデル (MLLM) の調整を大幅に改善できることを示しており、これはトレーニング データを複数回スケールアップする利点と同等です。

要約(オリジナル)

Fine-tuning large language models (LLMs) on multi-task instruction-following data has been proven to be a powerful learning paradigm for improving their zero-shot capabilities on new tasks. Recent works about high-quality instruction-following data generation and selection require amounts of human labor to conceive model-understandable instructions for the given tasks and carefully filter the LLM-generated data. In this work, we introduce an automatic instruction augmentation method named INSTRAUG in multimodal tasks. It starts from a handful of basic and straightforward meta instructions but can expand an instruction-following dataset by 30 times. Results on two popular multimodal instructionfollowing benchmarks MULTIINSTRUCT and InstructBLIP show that INSTRAUG can significantly improve the alignment of multimodal large language models (MLLMs) across 12 multimodal tasks, which is even equivalent to the benefits of scaling up training data multiple times.

arxiv情報

著者 Wei Han,Hui Chen,Soujanya Poria
発行日 2024-06-14 13:38:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク