Re-examining learning linear functions in context

要約

インコンテキスト学習 (ICL) は、幅広い問題を解決する魅力的な方法です。
Gargらにインスピレーションを得た。
(2022) では、さまざまなトレーニングおよびテスト設定で、ゼロからトレーニングされたさまざまなサイズのいくつかの変圧器モデルの ICL を詳しく調べています。
私たちの研究は、トレーニング分布にないデータに一般化するためのこれらのモデルのいくつかの体系的な失敗を指摘することで、以前の研究を補完し、それによって ICL のいくつかの限界を示しています。
モデルがこのタスクに対して標準的なソリューションとは大きく異なる戦略を採用していることがわかりました。

要約(オリジナル)

In context learning (ICL) is an attractive method of solving a wide range of problems. Inspired by Garg et al. (2022), we look closely at ICL in a variety of train and test settings for several transformer models of different sizes trained from scratch. Our study complements prior work by pointing out several systematic failures of these models to generalize to data not in the training distribution, thereby showing some limitations of ICL. We find that models adopt a strategy for this task that is very different from standard solutions.

arxiv情報

著者 Omar Naim,Guilhem Fouilhé,Nicholas Asher
発行日 2024-11-18 10:58:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク