Improving In-context Learning via Bidirectional Alignment

要約

大規模言語モデル (LLM) は、インコンテキスト学習 (ICL) を介して、多くのタスクに対して印象的な数回の一般化を示しました。
このような新しい能力を示すことに成功したにもかかわらず、より大きなモデルの規模と複雑さは、前例のない高い計算需要と展開の課題にもつながります。
これに反応して、研究者は、通常、より小さなモデルの出力をより大きなモデルの出力と一致させることにより、より大きなモデルの強力な機能をより効率的でコンパクトなモデルに移すことを検討しています。
既存の方法は、より大きなモデルの生成された出力に基づいてより小さなモデルをトレーニングするか、トークンレベルの確率分布を模倣します。
ただし、これらの蒸留方法では、ICL においても重要な役割を果たす入力部分にはほとんど注意が払われません。
ICL のパフォーマンスはデモンストレーション サンプルの選択に非常に影響されるという発見に基づいて、ICL サンプルに対するモデルの好みを最大限に活用して、より小規模なモデルの ICL 能力を向上させる双方向アライメント (BiAlign) を提案します。
具体的には、トークンレベルの出力分布を調整することに加えて、新しいランキング損失を組み込むことにより、小規模モデルと大規模モデルの間で入力設定の調整を導入します。
広範な実験と分析により、BiAlign が言語理解、推論、コーディングなどのさまざまなタスクで既存のベースラインを常に上回るパフォーマンスを発揮できることを実証しました。

要約(オリジナル)

Large language models (LLMs) have shown impressive few-shot generalization on many tasks via in-context learning (ICL). Despite their success in showing such emergent abilities, the scale and complexity of larger models also lead to unprecedentedly high computational demands and deployment challenges. In reaction, researchers explore transferring the powerful capabilities of larger models to more efficient and compact models by typically aligning the output of smaller models with that of larger models. Existing methods either train smaller models on the generated outputs of larger models or to imitate their token-level probability distributions. However, these distillation methods pay little to no attention to the input part, which also plays a crucial role in ICL. Based on the finding that the performance of ICL is highly sensitive to the selection of demonstration examples, we propose Bidirectional Alignment (BiAlign) to fully leverage the models’ preferences for ICL examples to improve the ICL abilities of smaller models. Specifically, we introduce the alignment of input preferences between smaller and larger models by incorporating a novel ranking loss, in addition to aligning the token-level output distribution. With extensive experiments and analysis, we demonstrate that BiAlign can consistently outperform existing baselines on a variety of tasks including language understanding, reasoning, and coding.

arxiv情報

著者 Chengwei Qin,Wenhan Xia,Fangkai Jiao,Shafiq Joty
発行日 2023-12-28 15:02:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク