Stronger Models are NOT Stronger Teachers for Instruction Tuning

要約

命令チューニングは、大規模な言語モデル(LLM)がユーザーの指示に効果的に従うようにするために広く採用されています。
結果として生じるLLMの命令に従う機能は、チューニングに使用される命令データセットに大きく依存しています。
最近、合成命令データセットは、LLMSの多様で高品質の命令を提供するための経済的に実行可能なソリューションとして浮上しています。
ただし、既存のアプローチでは、通常、より大きなモデルまたはより強力なモデルが指導の調整のためのより強力な教師であると想定しているため、これらのモデルを合成指示の応答ジェネレーターとして採用します。
この論文では、この一般的に採用されている仮定に挑戦します。
5つのベースモデルと20の応答ジェネレーターにわたる広範な実験は、より大きくより強力なモデルが必ずしも小規模モデルの教師を強くしているわけではないことを明らかにしています。
この現象を、より大きなモデルのパラドックスと呼びます。
既存のメトリックは、教師と微調整されている基本モデルの間の互換性を無視するため、応答ジェネレーターの有効性を正確に予測できないことがわかります。
したがって、応答ジェネレーターの有効性を測定するために、互換性調整された報酬(CAR)と名付けられた新しいメトリックを開発します。
5つのベースモデルにわたる実験は、車がほぼすべてのベースラインよりも優れていることを示しています。

要約(オリジナル)

Instruction tuning has been widely adopted to ensure large language models (LLMs) follow user instructions effectively. The resulting instruction-following capabilities of LLMs heavily rely on the instruction datasets used for tuning. Recently, synthetic instruction datasets have emerged as an economically viable solution to provide LLMs diverse and high-quality instructions. However, existing approaches typically assume that larger or stronger models are stronger teachers for instruction tuning, and hence simply adopt these models as response generators to the synthetic instructions. In this paper, we challenge this commonly-adopted assumption. Our extensive experiments across five base models and twenty response generators reveal that larger and stronger models are not necessarily stronger teachers of smaller models. We refer to this phenomenon as the Larger Models’ Paradox. We observe that existing metrics cannot precisely predict the effectiveness of response generators since they ignore the compatibility between teachers and base models being fine-tuned. We thus develop a novel metric, named as Compatibility-Adjusted Reward (CAR) to measure the effectiveness of response generators. Our experiments across five base models demonstrate that CAR outperforms almost all baselines.

arxiv情報

著者 Zhangchen Xu,Fengqing Jiang,Luyao Niu,Bill Yuchen Lin,Radha Poovendran
発行日 2025-02-26 18:10:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク