要約
大規模言語モデル (LLM) におけるインコンテキスト学習 (ICL) は、強力な新しい学習パラダイムとして浮上しています。
しかし、その根本的なメカニズムはまだよく理解されていません。
特に、これを「標準」機械学習フレームワークにマッピングするのは困難です。このフレームワークでは、トレーニング セット $S$ を使用して、ある仮説クラスで最も適合する関数 $f(x)$ を見つけます。
ここで、ICL によって学習された関数が非常に単純な構造をしていることが多いことを示すことで、この問題を前進させます。これらの関数は、クエリ $x$ とトレーニング セットから計算された単一の「タスク ベクトル」だけが入力であるトランスフォーマー LLM に対応します。
したがって、ICL は、$S$ を単一のタスク ベクトル $\boldsymbol{\theta}(S)$ に圧縮し、このタスク ベクトルを使用してトランスフォーマーを変調して出力を生成すると見なされます。
私たちは、さまざまなモデルとタスクにわたる包括的な実験を通じて上記の主張を支持します。
要約(オリジナル)
In-context learning (ICL) in Large Language Models (LLMs) has emerged as a powerful new learning paradigm. However, its underlying mechanism is still not well understood. In particular, it is challenging to map it to the ‘standard’ machine learning framework, where one uses a training set $S$ to find a best-fitting function $f(x)$ in some hypothesis class. Here we make progress on this problem by showing that the functions learned by ICL often have a very simple structure: they correspond to the transformer LLM whose only inputs are the query $x$ and a single ‘task vector’ calculated from the training set. Thus, ICL can be seen as compressing $S$ into a single task vector $\boldsymbol{\theta}(S)$ and then using this task vector to modulate the transformer to produce the output. We support the above claim via comprehensive experiments across a range of models and tasks.
arxiv情報
著者 | Roee Hendel,Mor Geva,Amir Globerson |
発行日 | 2023-10-24 15:17:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google