Transformer verbatim in-context retrieval across time and scale

要約

今後のテキストを予測するために、言語モデルは場合によってはコンテキスト内の情報をそのまま取得する必要があります。
このレポートでは、トレーニング中に開発された任意の文脈内名詞を取得する言語モデルの能力 (時間全体) と、同じデータセットでトレーニングされた言語モデルのサイズが (スケール全体) 増加するにつれてどのように変化するかを調査しました。
次に、コンテキスト内検索の学習が、より困難なゼロショット ベンチマークの学習と相関があるかどうかを尋ねました。
さらに、人間の短期記憶における意味効果に触発されて、対象の名詞の主要な意味要素、つまり人間が評価した具体的実体を表すか抽象的実体を表すかについて検索を評価しました。
文脈内の逐語的検索は、トレーニング トークンの約 1% 後のトレーニング プロセスの初期の突然の移行で発達したことを示します。
これはモデル サイズ全体 (14M から最大 12B パラメーターまで) で観察され、最も小さい 2 つのモデルでは移行がわずかに遅れて発生しました。
さらに、コンテキスト内の逐語的検索の発達がゼロショット ベンチマークの学習と正の相関があることも発見しました。
移行点付近では、すべてのモデルで、抽象名詞ではなく具体名詞を取得する利点が示されました。
2 つの最小モデルを除くすべてのモデルで、トレーニングの終わりに向けて利点が消失しました。

要約(オリジナル)

To predict upcoming text, language models must in some cases retrieve in-context information verbatim. In this report, we investigated how the ability of language models to retrieve arbitrary in-context nouns developed during training (across time) and as language models trained on the same dataset increase in size (across scale). We then asked whether learning of in-context retrieval correlates with learning of more challenging zero-shot benchmarks. Furthermore, inspired by semantic effects in human short-term memory, we evaluated the retrieval with respect to a major semantic component of target nouns, namely whether they denote a concrete or abstract entity, as rated by humans. We show that verbatim in-context retrieval developed in a sudden transition early in the training process, after about 1% of the training tokens. This was observed across model sizes (from 14M and up to 12B parameters), and the transition occurred slightly later for the two smallest models. We further found that the development of verbatim in-context retrieval is positively correlated with the learning of zero-shot benchmarks. Around the transition point, all models showed the advantage of retrieving concrete nouns as opposed to abstract nouns. In all but two smallest models, the advantage dissipated away toward the end of training.

arxiv情報

著者 Kristijan Armeni,Marko Pranjić,Senja Pollak
発行日 2024-11-11 15:50:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク