要約
インコンテキスト学習は、おそらく今日のフロンティア AI モデルの成功を支えている特定の機械学習モデルの強力な機能です。
ただし、コンテキスト内学習は、関心のあるコンテキスト内分布 $p_{\theta}^{ICL}( x|\mathcal{D})$ がモデルによって直接表現および/またはパラメータ化できる設定に非常に限定されます。
;
たとえば、言語モデリングは、次のトークンの分布を、ネットワークの出力ロジットによってパラメーター化されたカテゴリ分布として表現することに依存しています。
この研究では、 \textit{エネルギー関数の文脈内学習} と呼ぶ、そのような制限のない、より一般的な形式の文脈内学習を提示します。
その代わりに、文脈内分布 $p_{\theta}^{ に対応する、制約のない任意の文脈内エネルギー関数 $E_{\theta}^{ICL}(x|\mathcal{D})$ を学習するという考え方です。
ICL}(x|\mathcal{D})$.
これを行うために、私たちはエネルギーベースのモデリングからの古典的なアイデアを使用します。
私たちは、私たちの方法が合成データに対して経験的に機能するという予備的な証拠を提供します。
興味深いことに、私たちの研究は(私たちの知る限り)入力空間と出力空間が互いに異なるインコンテキスト学習の最初の例に貢献しており、インコンテキスト学習が以前に実現されていたよりもより一般的な機能であることを示唆しています。
要約(オリジナル)
In-context learning is a powerful capability of certain machine learning models that arguably underpins the success of today’s frontier AI models. However, in-context learning is critically limited to settings where the in-context distribution of interest $p_{\theta}^{ICL}( x|\mathcal{D})$ can be straightforwardly expressed and/or parameterized by the model; for instance, language modeling relies on expressing the next-token distribution as a categorical distribution parameterized by the network’s output logits. In this work, we present a more general form of in-context learning without such a limitation that we call \textit{in-context learning of energy functions}. The idea is to instead learn the unconstrained and arbitrary in-context energy function $E_{\theta}^{ICL}(x|\mathcal{D})$ corresponding to the in-context distribution $p_{\theta}^{ICL}(x|\mathcal{D})$. To do this, we use classic ideas from energy-based modeling. We provide preliminary evidence that our method empirically works on synthetic data. Interestingly, our work contributes (to the best of our knowledge) the first example of in-context learning where the input space and output space differ from one another, suggesting that in-context learning is a more-general capability than previously realized.
arxiv情報
著者 | Rylan Schaeffer,Mikail Khona,Sanmi Koyejo |
発行日 | 2024-06-18 16:54:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google