Instruction Diversity Drives Generalization To Unseen Tasks

要約

命令チューニング (命令と望ましい結果のペアに基づいて大規模言語モデル (LLM) を微調整する) は、事前トレーニングされた言語モデルが現実世界のタスクを実行し、人間の指示に従うことを可能にするアプローチです。
実際の成功は、モデルがトレーニングされた命令よりも幅広い命令セットを学習するかどうかにかかっています。
しかし、そのような \emph{目に見えないタスク} へのモデルの一般化を決定する要因はよく理解されていません。
一般化の推進要因を理解するために、この論文では、文字列の書き換えを実験します。これは、「入力」と「命令」の実験的な制御を可能にしながら、チューリング完全マルコフ アルゴリズムの構成要素として機能する記号的タスクです。
モデルがトレーニングされる命令の数と各命令に提供されるトレーニング サンプルの数の間のトレードオフを調査し、命令セットの多様性が一般化を決定することを観察しました。
各タスクに提供される例が非常に少ない場合でも、十分に多様なタスクのセットが提供されると、一般化が現れます。
命令の多様性により、トレーニング セット内の命令の不均一な分布に対する堅牢性も確保されます。

要約(オリジナル)

Instruction tuning — fine-tuning a large language model (LLM) on pairs of instructions and desired outcomes — is an approach that enables pre-trained language models to perform real-world tasks and follow human instructions. Its practical success depends on the model learning a broader set of instructions than those it was trained on. Yet the factors that determine model generalization to such \emph{unseen tasks} are not well understood. %To understand the driving factors of generalization, In this paper, we experiment with string rewrites, a symbolic task that serves as a building block for Turing complete Markov algorithms while allowing experimental control of ‘inputs’ and ‘instructions’. We investigate the trade-off between the number of instructions the model is trained on and the number of training samples provided for each instruction and observe that the diversity of the instruction set determines generalization. Generalization emerges once a diverse enough set of tasks is provided, even though very few examples are provided for each task. Instruction diversity also ensures robustness with respect to non-uniform distributions of instructions in the training set.

arxiv情報

著者 Dylan Zhang,Justin Wang,Francois Charton
発行日 2024-02-16 18:47:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク