要約
大規模言語モデル (LLM) は、命令の一部を無視したり誤解したりする可能性があるため、単一のクエリ内の一連の命令に従うのが困難です。
これにより、多言語 (翻訳してから回答) やマルチモーダル (キャプションから回答) タスクなど、解決に複数の中間ステップが必要となる複雑な問題におけるパフォーマンスが低下します。
私たちは、LLaMA-2 70B や Mixtral-8x7B などの大規模なオープンソース LLM を使用して、これを経験的に検証します。
現在のデータにおけるシーケンシャル命令の不足をターゲットとして、命令チューニング データを自動的に強化し、複数のシーケンシャル命令を実行する機能を LLM に装備するシンプルかつ効果的な戦略であるシーケンシャル命令チューニングを提案します。
Alpaca などの既存のデータセットで、さまざまな中間タスクを使用してインターリーブ命令を調査した結果、推論、多言語、マルチモーダル能力を伴う下流タスクでは、逐次命令調整モデルが従来の命令調整ベースラインよりも一貫して優れていることがわかりました。
私たちの技術をさらに解明するために、敵対的な中間テキスト、目に見えないタスク、プロンプトの言語化、タスクの数、およびプロンプトの長さが SIT にどのように影響するかを分析します。
この方法により、複雑なタスクの命令チューニングに関する新しい研究の道が開かれることを期待しています。
要約(オリジナル)
Large language models (LLMs) struggle to follow a sequence of instructions in a single query as they may ignore or misinterpret part of it. This impairs their performance in complex problems whose solution requires multiple intermediate steps, such as multilingual (translate then answer) and multimodal (caption then answer) tasks. We empirically verify this with open-source LLMs as large as LLaMA-2 70B and Mixtral-8x7B. Targeting the scarcity of sequential instructions in present-day data, we propose sequential instruction tuning, a simple yet effective strategy to automatically augment instruction tuning data and equip LLMs with the ability to execute multiple sequential instructions. After exploring interleaving instructions in existing datasets, such as Alpaca, with a wide range of intermediate tasks, we find that sequential instruction-tuned models consistently outperform the conventional instruction-tuned baselines in downstream tasks involving reasoning, multilingual, and multimodal abilities. To shed further light on our technique, we analyse how adversarial intermediate texts, unseen tasks, prompt verbalization, number of tasks, and prompt length affect SIT. We hope that this method will open new research avenues on instruction tuning for complex tasks.
arxiv情報
著者 | Hanxu Hu,Pinzhen Chen,Edoardo M. Ponti |
発行日 | 2024-03-12 16:33:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google