In-context Learning and Gradient Descent Revisited

要約

インコンテキスト学習 (ICL) は、数ショットの学習タスクで優れた結果を示していますが、その基礎となるメカニズムはまだ完全には理解されていません。
最近の研究では、ICL が勾配降下 (GD) ベースの最適化を暗黙的に実行することが示唆されています。
魅力的ではありますが、研究の多くは、浅いモデルのパラメーターが最適化される単純化された設定に焦点を当てています。
この研究では、現実的な NLP タスクとモデルに関する ICL-GD 対応の証拠を再検討します。
問題のある指標と不十分なベースラインの両方の点で、評価にギャップがあることがわかります。
驚くべきことに、トレーニングされていないモデルでも、ICL を示さないにもかかわらず、同等の ICL-GD 類似性スコアを達成することを示します。
次に、ICL と GD の間のモデル全体の情報の流れにおける大きな矛盾 (レイヤー因果関係と呼ぶ) を調査します。
層の因果関係を尊重する単純な GD ベースの最適化手順を提案し、それが類似性スコアを大幅に改善することを示します。

要約(オリジナル)

In-context learning (ICL) has shown impressive results in few-shot learning tasks, yet its underlying mechanism is still not fully understood. A recent line of work suggests that ICL performs gradient descent (GD)-based optimization implicitly. While appealing, much of the research focuses on simplified settings, where the parameters of a shallow model are optimized. In this work, we revisit evidence for ICL-GD correspondence on realistic NLP tasks and models. We find gaps in evaluation, both in terms of problematic metrics and insufficient baselines. We show that surprisingly, even untrained models achieve comparable ICL-GD similarity scores despite not exhibiting ICL. Next, we explore a major discrepancy in the flow of information throughout the model between ICL and GD, which we term Layer Causality. We propose a simple GD-based optimization procedure that respects layer causality, and show it improves similarity scores significantly.

arxiv情報

著者 Gilad Deutch,Nadav Magar,Tomer Bar Natan,Guy Dar
発行日 2024-03-31 19:33:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク