In-context Learning vs. Instruction Tuning: The Case of Small and Multilingual Language Models

要約

次の命令は、大規模な言語モデルがダウンストリームタスクを実行する重要な能力です。
命令アライメントへの標準的なアプローチは、キュレーションされた命令データセットを介したモデルチューニングの特定の段階に依存しており、オプションでは人間の好みに対するアライメントステップで補完されました。
最近の研究では、コンテキスト学習(ICL)の代替案の可能性が示されており、基本モデルを指示に向けて導きます。
このタイプのアプローチは、さまざまなタイプの使用に適応されるさまざまなサイズの言語とモデル間の指示を拡張するために特に関連しています。
この作業では、英語、フランス語、スペイン語でICLと命令を小言語モデルで比較し、基本モデルに直接優先最適化(DPO)を適用する実験結果を提供します。
我々の結果は、多言語および小規模なモデルを含むシナリオにより、パフォーマンス後のICL命令が格下げされることを示しており、DPOアライメントによって部分的に緩和されただけです。
この研究の目的は、現在の長所と指示のための代替方法の制限についての理解を深めることを目的としています。

要約(オリジナル)

Instruction following is a critical ability for Large Language Models to perform downstream tasks. The standard approach to instruction alignment has relied on a specific phase of model tuning over curated instruction datasets, optionally complemented with an alignment step over human preferences. Recent work has shown the potential of in-context learning (ICL) alternatives to guide base models towards instruction following. This type of approach is particularly relevant to extend instruction following across languages and models of varying sizes adapted to different types of usage. In this work we compare ICL and instruction fine-tuning in English, French and Spanish, on Small Language Models, and provide experimental results on applying Direct Preference Optimisation (DPO) over base models. Our results show that scenarios involving multilingual and smaller models result in downgraded ICL instruction following performance, only partially mitigated by DPO alignment. This study aims to further our understanding of current strengths and limitations of alternative methods for instruction following.

arxiv情報

著者 David Ponce,Thierry Etchegoyhen
発行日 2025-03-17 15:32:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク