In-context Learning and Gradient Descent Revisited

要約

インコンテキスト学習 (ICL) は、数ショットの学習タスクで優れた結果を示していますが、その基礎となるメカニズムはまだ完全には理解されていません。
最近の研究では、ICL は勾配降下法 (GD) ベースの最適化プロセスとして考えることができることが示唆されています。
有望ではありますが、これらの結果は主に ICL の簡略化された設定に焦点を当てており、2 つの方法間の類似性の予備評価のみを提供します。
この研究では、ICL と GD ベースの微調整の比較を再検討し、同等のプロセスが従う必要がある ICL の特性を検討します。
ICL と標準の微調整の間の情報の流れにおける大きな違いを強調します。
つまり、ICL はあらゆる点で下位層からの情報のみに依存できますが、微調整はより深い層からの損失勾配に依存します。
私たちはこの不一致をレイヤー因果関係と呼び、微調整プロセスのレイヤー因果バリアントがバニラ微調整と同等に ICL と一致し、関連するメトリクス全体でほとんどの場合さらに優れていることを示します。
私たちの知る限り、これはこの矛盾を明確に議論し、最小限の変更でこの問題に取り組む解決策を提案した最初の研究です。

要約(オリジナル)

In-context learning (ICL) has shown impressive results in few-shot learning tasks, yet its underlying mechanism is still not fully understood. Recent works suggest that ICL can be thought of as a gradient descent (GD) based optimization process. While promising, these results mainly focus on simplified settings of ICL and provide only a preliminary evaluation of the similarities between the two methods. In this work, we revisit the comparison between ICL and GD-based finetuning and study what properties of ICL an equivalent process must follow. We highlight a major difference in the flow of information between ICL and standard finetuning. Namely, ICL can only rely on information from lower layers at every point, while finetuning depends on loss gradients from deeper layers. We refer to this discrepancy as Layer Causality and show that a layer causal variant of the finetuning process aligns with ICL on par with vanilla finetuning and is even better in most cases across relevant metrics. To the best of our knowledge, this is the first work to discuss this discrepancy explicitly and suggest a solution that tackles this problem with minimal changes.

arxiv情報

著者 Tomer Bar Natan,Gilad Deutch,Nadav Magar,Guy Dar
発行日 2023-11-15 15:29:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク