要約
既存の命令調整モデルは成功しているにもかかわらず、通常、複数の命令を含むクエリに応答するのに苦労していることがわかりました。
これにより、解決策が複数の中間タスクで構成される複雑な問題におけるパフォーマンスが低下します。
したがって、微調整データ混合の一部は、相互に関連する一連のタスクを含む連続的なものであるべきであると私たちは主張します。
まず、タスク駆動の観点から逐次命令チューニングにアプローチし、多言語および視覚的な質問応答のための解釈可能な中間タスク、つまり「翻訳してから予測する」と「キャプションを付けてから回答する」を手動で作成します。
次に、既存のデータセット (Alpaca や FlanCoT など) の命令を多様で複雑な逐次命令に変換することでこのプロセスを自動化し、メソッドを汎用化します。
シーケンシャル命令チューニングを受けたモデルは、コーディング、数学、およびオープンエンド生成において改善された結果を示しています。
さらに、シーケンス内のすべての命令に従うモデルの能力を評価するための SeqEval という新しいベンチマークを提案しました。これは、微調整方法の利点をさらに裏付けます。
私たちの取り組みが、複雑なタスクの命令チューニングに関する新たな研究の道を開くことを願っています。
要約(オリジナル)
Despite the success of existing instruction-tuned models, we find that they usually struggle to respond to queries with multiple instructions. This impairs their performance in complex problems whose solution consists of multiple intermediate tasks. Thus, we contend that part of the fine-tuning data mixture should be sequential–containing a chain of interrelated tasks. We first approach sequential instruction tuning from a task-driven perspective, manually creating interpretable intermediate tasks for multilingual and visual question answering: namely ‘translate then predict’ and ‘caption then answer’. Next, we automate this process by turning instructions in existing datasets (e.g., Alpaca and FlanCoT) into diverse and complex sequential instructions, making our method general-purpose. Models that underwent our sequential instruction tuning show improved results in coding, maths, and open-ended generation. Moreover, we put forward a new benchmark named SeqEval to evaluate a model’s ability to follow all the instructions in a sequence, which further corroborates the benefits of our fine-tuning method. We hope that our endeavours will open new research avenues on instruction tuning for complex tasks.
arxiv情報
著者 | Hanxu Hu,Simon Yu,Pinzhen Chen,Edoardo M. Ponti |
発行日 | 2024-06-20 17:53:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google