要約
コンテキスト内学習(ICL)により、LLMSは体重を変更せずに例から学習できます。これは、多くの例から学習できる潜在的な長いコンテキストLLMの特に有望な能力です。
最近、リン等。
(2024)urialを提案しました。これは、ベースLLMSを整列させるために3つのコンテキストの例のみを使用した方法であり、パフォーマンス後の非自明な指導を達成しました。
この作業では、特により有能なベースLLMを使用して、確立されたベンチマークMTベンチでの微調整と比較して、効果的ではあるが、ウリアルとのICLアラインメントがまだ不パフォーマンスの低いことを示しています。
次に、コンテキスト内アライメントを成功させるために最も関連性の高い要素を明らかにし、デコードパラメーターの重要な役割を見つけます。
これらの洞察に基づいて、貪欲な検索、コンテキストのデモンストレーションを介して高品質の潜在的に慎重に選択され、指示モデルのパフォーマンスに近づくことで、urialのアプローチが実際に改善できることを示しています。
最後に、ICLがIFTの実行可能な代替手段になる可能性のある低データ制度での命令のために、ICLと命令微調整(IFT)の体系的な比較を知るために、最初のものを提供します。
全体として、私たちの仕事は、AlignmentテクニックとしてのICLの理解とIFTとの関係を進めています。
https://github.com/tml-epfl/icl-alignmentでコードを提供します。
要約(オリジナル)
In-context learning (ICL) allows LLMs to learn from examples without changing their weights: this is a particularly promising capability for long-context LLMs that can potentially learn from many examples. Recently, Lin et al. (2024) proposed URIAL, a method using only three in-context examples to align base LLMs, achieving non-trivial instruction following performance. In this work, we show that, while effective, ICL alignment with URIAL still underperforms compared to instruction fine-tuning on the established benchmark MT-Bench, especially with more capable base LLMs. We then uncover the most relevant elements for successful in-context alignment, finding the crucial role of the decoding parameters. Based on these insights, we show that the approach of URIAL can indeed be improved by adding high-quality, potentially carefully selected via greedy search, demonstrations in context, getting closer to the performance of instruct models. Finally, we provide the first, to our knowledge, systematic comparison of ICL and instruction fine-tuning (IFT) for instruction following in the low data regime, where ICL can be a viable alternative to IFT. Overall, our work advances the understanding of ICL as an alignment technique and its relationship to IFT. We provide our code at https://github.com/tml-epfl/icl-alignment.
arxiv情報
著者 | Hao Zhao,Maksym Andriushchenko,Francesco Croce,Nicolas Flammarion |
発行日 | 2025-04-18 12:31:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google