A Latent Space Theory for Emergent Abilities in Large Language Models

要約

【タイトル】大規模言語モデルにおける新興能力のための潜在的空間理論

【要約】
– 言語はランダムに作られるのではなく、情報を伝えるために作られる。
– 言語とその基礎となる意味との間には強い関連性があり、相関に応じてピークの強い疎な周辺分布ができる。
– また、疎なためピーク値は周辺分布に一致することがわかった。
– LLMsにより、大量のデータで訓練された大規模なモデルができるようになり、言語の周辺分布を正確に評価できるようになった。
– 本論文では、言語を曖昧ではないものと {\epsilon}-曖昧なものの2種類に分類し、LLMsの言語理解、文脈学習、思考連鎖プロンプティング、効果的な指導微調整などの新興能力は全て言語の疎な周辺分布上のベイズ推論に起因することを定量的に示している。

要約(オリジナル)

Languages are not created randomly but rather to communicate information. There is a strong association between languages and their underlying meanings, resulting in a sparse joint distribution that is heavily peaked according to their correlations. Moreover, these peak values happen to match with the marginal distribution of languages due to the sparsity. With the advent of LLMs trained on big data and large models, we can now precisely assess the marginal distribution of languages, providing a convenient means of exploring the sparse structures in the joint distribution for effective inferences. In this paper, we categorize languages as either unambiguous or {\epsilon}-ambiguous and present quantitative results to demonstrate that the emergent abilities of LLMs, such as language understanding, in-context learning, chain-of-thought prompting, and effective instruction fine-tuning, can all be attributed to Bayesian inference on the sparse joint distribution of languages.

arxiv情報

著者 Hui Jiang
発行日 2023-04-24 16:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク