要約
大規模言語モデル (LLM) は、ラベル付きの例から予測変数を作成できる機能であるインコンテキスト学習 (ICL) で効果的であることが証明されています。
ICL と、ICL が近似しようとしている関数の特定の特性との間の相互作用を調査した研究はほとんどありません。
私たちの研究では、正式なフレームワークを使用して ICL を調査し、さまざまな数の最小値で関数を近似する新しいタスクを提案します。
与えられた入力を最小値として関数を生成できるメソッドを実装します。
最小値の数を増やすと ICL のパフォーマンスが低下することがわかりました。
同時に、私たちの評価では、ICL が 2 層ニューラル ネットワーク (2NN) モデルよりも優れていることがわかりました。
さらに、ICL はすべての設定において 2NN よりも速く学習します。
さまざまなハイパーパラメーター構成にわたる一連の少数ショット実験を通じて結果を検証します。
要約(オリジナル)
Large Language Models (LLMs) have proven effective at In-Context Learning (ICL), an ability that allows them to create predictors from labeled examples. Few studies have explored the interplay between ICL and specific properties of functions it attempts to approximate. In our study, we use a formal framework to explore ICL and propose a new task of approximating functions with varying number of minima. We implement a method that allows for producing functions with given inputs as minima. We find that increasing the number of minima degrades ICL performance. At the same time, our evaluation shows that ICL outperforms 2-layer Neural Network (2NN) model. Furthermore, ICL learns faster than 2NN in all settings. We validate the findings through a set of few-shot experiments across various hyperparameter configurations.
arxiv情報
著者 | David Oniani,Yanshan Wang |
発行日 | 2023-11-22 08:44:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google