Deep de Finetti: Recovering Topic Distributions from Large Language Models

要約

大規模言語モデル (LLM) は、長く一貫したテキストの一節を生成することができます。これは、LLM が次の単語の予測について訓練されていても、文書を特徴付ける潜在的な構造を表現する必要があることを示唆しています。
これまでの研究では、LLM の内部表現が潜在構造の 1 つの側面、つまり構文をエンコードしていることが判明しました。
ここでは、補完的な側面、つまりドキュメントのトピック構造を調査します。
私たちは、LLM の最適化を暗黙的なベイズ推論に結び付けることで、LLM がトピック構造を捕捉するという仮説を動機付けました。
デ・フィネッティの定理は、交換可能な確率分布が潜在生成分布に関する混合として表現できることを示しています。
テキストは構文レベルでは交換可能ではありませんが、交換可能性はトピック構造の合理的な開始前提条件です。
したがって、テキスト内の次のトークンを予測することで、LLM が潜在的なトピックの分布を回復できるという仮説を立てます。
我々は、交換可能な確率論的トピックモデルである潜在ディリクレ割り当て(LDA)をターゲットとして使用してこの仮説を検証し、LLMによって形成された表現が、合成データの生成に使用されるトピックと自然コーパスデータの説明に使用されるトピックの両方をコード化していることを示します。

要約(オリジナル)

Large language models (LLMs) can produce long, coherent passages of text, suggesting that LLMs, although trained on next-word prediction, must represent the latent structure that characterizes a document. Prior work has found that internal representations of LLMs encode one aspect of latent structure, namely syntax; here we investigate a complementary aspect, namely the document’s topic structure. We motivate the hypothesis that LLMs capture topic structure by connecting LLM optimization to implicit Bayesian inference. De Finetti’s theorem shows that exchangeable probability distributions can be represented as a mixture with respect to a latent generating distribution. Although text is not exchangeable at the level of syntax, exchangeability is a reasonable starting assumption for topic structure. We thus hypothesize that predicting the next token in text will lead LLMs to recover latent topic distributions. We examine this hypothesis using Latent Dirichlet Allocation (LDA), an exchangeable probabilistic topic model, as a target, and we show that the representations formed by LLMs encode both the topics used to generate synthetic data and those used to explain natural corpus data.

arxiv情報

著者 Liyi Zhang,R. Thomas McCoy,Theodore R. Sumers,Jian-Qiao Zhu,Thomas L. Griffiths
発行日 2023-12-21 16:44:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.6, stat.ML パーマリンク