Benchmarking General-Purpose In-Context Learning

要約

インコンテキスト学習 (ICL) により、人工的に作成された最適化手法に依存することなく、生成モデルが新しいタスクに効果的かつ効率的に即座に対処できるようになります。
この論文では、ICL を拡張して、学習期間が延長され、改善の可能性がより高い、より広範囲のタスク、つまり汎用インコンテキスト学習 (GPICL) に対処することについて研究します。
この目的を達成するために、GPICL の機能をトレーニングおよび評価するために特別に作成された 2 つの軽量ベンチマークを紹介します。
各ベンチマークには、タスクの大きな差異を特徴とする膨大な数のタスクが含まれています。
これらのタスクは、言語モデリング、意思決定、世界モデリングなどの領域をカバーする、継続的な生成と対話を通じて長期的な文脈内学習を促進するようにも作成されています。
ベンチマークでは、モデルがコンテキストと履歴の相互作用を活用して機能を強化する必要があり、これが GPICL の主要な特性であると考えられます。
私たちの実験では、トレーニング タスクの多様性は ICL による一般化能力と正の相関があるが、ゼロショット能力とは逆相関していることが示されています。
さらに、我々の調査結果は、パラメーターのスケールだけが ICL または GPICL にとって重要ではない可能性があることを示しており、コンテキストや記憶状態のスケールを増やすなどの代替アプローチを示唆しています。

要約(オリジナル)

In-context learning (ICL) empowers generative models to address new tasks effectively and efficiently on the fly, without relying on any artificially crafted optimization techniques. In this paper, we study extending ICL to address a broader range of tasks with an extended learning horizon and higher improvement potential, namely General Purpose In-Context Learning (GPICL). To this end, we introduce two lightweight benchmarks specifically crafted to train and evaluate GPICL functionalities. Each benchmark encompasses a vast number of tasks characterized by significant task variance. These tasks are also crafted to promote long-horizon in-context learning through continuous generation and interaction, covering domains such as language modeling, decision-making, and world modeling. The benchmarks necessitate the models to leverage contexts and history interactions to enhance their capabilities, which we believe to be the key characteristics of GPICL. Our experiments indicate that the diversity of training tasks is positively correlated with the ability to generalize with ICL, but inversely correlated with zero-shot capabilities. Additionally, our findings indicate that the scale of parameters alone may not be crucial for ICL or GPICL, suggesting alternative approaches such as increasing the scale of contexts and memory states.

arxiv情報

著者 Fan Wang,Chuan Lin,Yang Cao,Yu Kang
発行日 2024-09-12 15:22:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク