Can Custom Models Learn In-Context? An Exploration of Hybrid Architecture Performance on In-Context Learning Tasks

要約

インコンテキスト学習 (ICL) は、パラメーターの更新を必要とせずに、プロンプト シーケンスを通じてタスク学習が行われる現象です。
絶対位置埋め込みを使用したマルチヘッド アテンション (MHA) の ICL は、他のシーケンス モデルの種類よりも多くの研究の焦点となっています。
GPT-2 と LLaMa、および LlaMa と Mamba の間のアーキテクチャの違いの影響を調べます。
Garg らの研究を拡張します。
(2022) および Park et al。
(2024) GPT-2/LLaMa ハイブリッド モデルおよび LLaMa/Mamba ハイブリッド モデルへの適用 – シーケンス変換ブロックとコンテキスト内の回帰パフォーマンスの間の相互作用を調査します。
特定のアーキテクチャの変更により、次善の予測値に収束したり、収束が遅くなったりするため、トレーニング効率や ICL の精度が低下することに注意してください。
また、特定のハイブリッドが楽観的なパフォーマンス向上を示しており、将来の ICL に焦点を当てたアーキテクチャ変更の可能性を示唆しています。
さらに、特定のタスクにおけるモデル全体のパフォーマンスを記述するスカラー指標である「ICL 回帰スコア」を提案します。
コンピューティングの制限により、アーキテクチャ空間、トレーニング期間、トレーニング実行数、関数クラスの複雑さ、ベンチマークの複雑さに制限が課されます。
再現可能で拡張可能な研究を促進するために、すべての実験を実行するための、型付きのモジュール式で拡張可能な Python パッケージを提供します。

要約(オリジナル)

In-Context Learning (ICL) is a phenomenon where task learning occurs through a prompt sequence without the necessity of parameter updates. ICL in Multi-Headed Attention (MHA) with absolute positional embedding has been the focus of more study than other sequence model varieties. We examine implications of architectural differences between GPT-2 and LLaMa as well as LlaMa and Mamba. We extend work done by Garg et al. (2022) and Park et al. (2024) to GPT-2/LLaMa hybrid and LLaMa/Mamba hybrid models – examining the interplay between sequence transformation blocks and regressive performance in-context. We note that certain architectural changes cause degraded training efficiency/ICL accuracy by converging to suboptimal predictors or converging slower. We also find certain hybrids showing optimistic performance improvements, informing potential future ICL-focused architecture modifications. Additionally, we propose the ‘ICL regression score’, a scalar metric describing a model’s whole performance on a specific task. Compute limitations impose restrictions on our architecture-space, training duration, number of training runs, function class complexity, and benchmark complexity. To foster reproducible and extensible research, we provide a typed, modular, and extensible Python package on which we run all experiments.

arxiv情報

著者 Ryan Campbell,Nelson Lojo,Kesava Viswanadha,Christoffer Grondal Tryggestad,Derrick Han Sun,Sriteja Vijapurapu,August Rolfsen,Anant Sahai
発行日 2024-11-06 14:25:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク