Feature-Adaptive and Data-Scalable In-Context Learning

要約

いくつかのデモンストレーションを使用して推論を促進するインコンテキスト学習 (ICL) は、下流タスクの LLM 機能を刺激するパラダイムとして広く普及しています。
コンテキストの長さの制約により、トレーニング データが増えてもこれ以上改善することはできず、ICL の LLM から直接得られる一般的な特徴は、特定の下流タスクに適応できません。
この論文では、特徴適応型でデータスケーラブルなインコンテキスト学習フレームワーク (FADS-ICL) を提案します。このフレームワークは、タスク適応型の機能を活用して、コンテキストを超えたサンプルを監視しながら、下流のタスクでの推論を促進できます。
具体的には、まず ICL 入力フォームを使用して LLM を介してコンテキストを超えたサンプルの一般的な特徴を 1 つずつ抽出し、タスク固有のモジュレーターを導入して、特定の下流タスクに適合させた後に特徴の改良と予測を実行します。
私たちは、さまざまなデータ設定 (4$\sim$128 ショット) および LLM スケール (0.8$\sim$70B) 設定の下で、FADS-ICL について広範な実験を実施しています。
実験結果は、FADS-ICL がすべての設定において一貫して以前の最先端の方法を大幅に上回るパフォーマンスを示し、FADS-ICL の有効性と優位性を実証しました。
たとえば、1.5B および 32 ショットの設定では、FADS-ICL は 10 個のデータセットでバニラ ICL よりも特徴適応から \textbf{+14.3} の平均精度を達成でき、以前の状態と比較すると \textbf{+6.2} の平均精度を達成できます。
-最新の方法であり、トレーニング データを増やすとパフォーマンスがさらに向上します。
コードとデータは \url{https://github.com/jiahaozhenbang/FADS-ICL} で公開されています。

要約(オリジナル)

In-context learning (ICL), which promotes inference with several demonstrations, has become a widespread paradigm to stimulate LLM capabilities for downstream tasks. Due to context length constraints, it cannot be further improved in spite of more training data, and general features directly from LLMs in ICL are not adaptive to the specific downstream task. In this paper, we propose a feature-adaptive and data-scalable in-context learning framework (FADS-ICL), which can leverage task-adaptive features to promote inference on the downstream task, with the supervision of beyond-context samples. Specifically, it first extracts general features of beyond-context samples via the LLM with ICL input form one by one, and introduces a task-specific modulator to perform feature refinement and prediction after fitting a specific downstream task. We conduct extensive experiments on FADS-ICL under varying data settings (4$\sim$128 shots) and LLM scale (0.8$\sim$70B) settings. Experimental results show that FADS-ICL consistently outperforms previous state-of-the-art methods by a significant margin under all settings, verifying the effectiveness and superiority of FADS-ICL. For example, under the 1.5B and 32 shots setting, FADS-ICL can achieve \textbf{+14.3} average accuracy from feature adaptation over vanilla ICL on 10 datasets, with \textbf{+6.2} average accuracy over the previous state-of-the-art method, and the performance can further improve with increasing training data. Code and data are publicly available at \url{https://github.com/jiahaozhenbang/FADS-ICL}.

arxiv情報

著者 Jiahao Li,Quan Wang,Licheng Zhang,Guoqing Jin,Zhendong Mao
発行日 2024-05-17 12:32:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク