要約
大規模言語モデル (LLM) の領域では、命令追従機能の強化には、膨大なトレーニング データのキュレーションが必要になることがよくあります。
これは、2 つの主要なスキームによって実現されます。 i) スケーリング入力: タスク命令ごとに (入力、出力) ペアを増幅し、命令の遵守性を向上します。
ii) 入力不要タスクのスケーリング: それぞれが (命令、出力) ペアで構成されたタスクを (個別の入力を必要とせずに) 拡大します。
ただし、スケーリング入力の下の LLM は入力に過度に敏感になる傾向があり、誤解や命令の不遵守につながります。
逆に、Scaling Input-Free Tasks はかなりの数のタスクを必要としますが、Scaling-Inputs でインスタンスを処理する場合の命令に従う効率は低くなります。
この研究では、命令に従うデータセット キュレーションの新しいスキームである MUFFIN を導入します。
具体的には、さまざまな入力ファセットでこれらのタスクを多様化することで、入力ごとにタスクを自動的にスケールします。
スケーリング入力タスク スキームとスケーリング入力フリー タスク スキームの両方にわたる 4 つのゼロショット ベンチマークにわたる実験結果から、MUFFIN でトレーニングされた LLM は、さまざまなスケールで、一般に、前述の 2 つのスキームでトレーニングされたものと比較して、優れた命令追従能力を示すことが明らかになりました。
要約(オリジナル)
In the realm of large language models (LLMs), enhancing instruction-following capability often involves curating expansive training data. This is achieved through two primary schemes: i) Scaling-Inputs: Amplifying (input, output) pairs per task instruction, aiming for better instruction adherence. ii) Scaling Input-Free Tasks: Enlarging tasks, each composed of an (instruction, output) pair (without requiring a separate input anymore). However, LLMs under Scaling-Inputs tend to be overly sensitive to inputs, leading to misinterpretation or non-compliance with instructions. Conversely, Scaling Input-Free Tasks demands a substantial number of tasks but is less effective in instruction following when dealing with instances in Scaling-Inputs. This work introduces MUFFIN, a new scheme of instruction-following dataset curation. Specifically, we automatically Scale Tasks per Input by diversifying these tasks with various input facets. Experimental results across four zero-shot benchmarks, spanning both Scaling-Inputs and Scaling Input-Free Tasks schemes, reveal that LLMs, at various scales, trained on MUFFIN generally demonstrate superior instruction-following capabilities compared to those trained on the two aforementioned schemes.
arxiv情報
著者 | Renze Lou,Kai Zhang,Jian Xie,Yuxuan Sun,Janice Ahn,Hanzi Xu,Yu Su,Wenpeng Yin |
発行日 | 2023-12-05 02:32:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google