Meta- (out-of-context) learning in neural networks

要約

ブラウンら。
(2020) は、大規模言語モデル (LLM) におけるコンテキスト内学習の現象を導入したことで有名です。
私たちは、LLM を用いた慎重に設計された合成実験を通じて、$\textbf{メタアウトオブコンテキスト学習 (メタ OCL)}$ と呼ばれる現象の存在を確立しました。
私たちの結果は、メタOCLにより、LLMが広く有用である、またはそう見えるテキストの意味内容(真実の記述や信頼できる情報源からのテキストなど)をより容易に「内部化」し、それを適切な状況で使用できることを示唆しています。
さらに、合成コンピュータ ビジョン環境におけるメタ OCL を実証し、メタ OCL の出現について 2 つの仮説を提案します。1 つはモデルがパラメータに知識を格納する方法に依存するもので、もう 1 つは勾配降下法の暗黙的な勾配整列バイアスが影響することを示唆するものです。
-ベースのオプティマイザが原因である可能性があります。
最後に、私たちの結果が将来の AI システムの機能について何を示唆するかを振り返り、潜在的なリスクについて議論します。
私たちのコードは https://github.com/krasheninnikov/internalization にあります。

要約(オリジナル)

Brown et al. (2020) famously introduced the phenomenon of in-context learning in large language models (LLMs). We establish the existence of a phenomenon we call $\textbf{meta-out-of-context learning (meta-OCL)}$ via carefully designed synthetic experiments with LLMs. Our results suggest that meta-OCL leads LLMs to more readily ‘internalize’ the semantic content of text that is, or appears to be, broadly useful (such as true statements, or text from authoritative sources) and use it in appropriate circumstances. We further demonstrate meta-OCL in a synthetic computer vision setting, and propose two hypotheses for the emergence of meta-OCL: one relying on the way models store knowledge in their parameters, and another suggesting that the implicit gradient alignment bias of gradient-descent-based optimizers may be responsible. Finally, we reflect on what our results might imply about capabilities of future AI systems, and discuss potential risks. Our code can be found at https://github.com/krasheninnikov/internalization .

arxiv情報

著者 Dmitrii Krasheninnikov,Egor Krasheninnikov,Bruno Mlodozeniec,David Krueger
発行日 2023-10-23 15:50:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク