RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder for Language Modeling

要約

検索拡張言語モデルは、言語モデル (LM) における古い情報や幻覚などの問題の解決に有望です。
しかし、現在の研究は、1) どの情報を取得するかを決定すること、2) 生成中に取得した情報を効果的に組み合わせるという 2 つの主な問題に直面しています。
私たちは、将来のトークンをモデル化する LM の性質を考慮すると、取得された貴重な情報は現在のソース テキストに関連するだけでなく、将来のターゲット テキストも考慮されるべきであると主張します。
さらに、コンパクトな潜在空間から導出された潜在変数を使用した集約は、コンテキストの長さによって制限され、ノイズの影響を受けやすい明示的な生のテキストを使用するよりも効率的であることを提案します。
したがって、変分自動エンコーダ (VAE) に基づいて構築された検索拡張言語モデルである RegaVAE を紹介します。
テキスト コーパスを潜在空間にエンコードし、ソース テキストとターゲット テキストの両方から現在および将来の情報をキャプチャします。
さらに、VAE を利用して潜在空間を初期化し、事前ガウス分布を混合ガウス分布に拡張することにより、確率的形式の検索生成パラダイムを採用します。
理論分析により、RegaVAE の最適化可能な上限が提供されます。
さまざまなデータセットの実験結果では、テキスト生成の品質と幻覚の除去が大幅に向上していることが実証されています。

要約(オリジナル)

Retrieval-augmented language models show promise in addressing issues like outdated information and hallucinations in language models (LMs). However, current research faces two main problems: 1) determining what information to retrieve, and 2) effectively combining retrieved information during generation. We argue that valuable retrieved information should not only be related to the current source text but also consider the future target text, given the nature of LMs that model future tokens. Moreover, we propose that aggregation using latent variables derived from a compact latent space is more efficient than utilizing explicit raw text, which is limited by context length and susceptible to noise. Therefore, we introduce RegaVAE, a retrieval-augmented language model built upon the variational auto-encoder (VAE). It encodes the text corpus into a latent space, capturing current and future information from both source and target text. Additionally, we leverage the VAE to initialize the latent space and adopt the probabilistic form of the retrieval generation paradigm by expanding the Gaussian prior distribution into a Gaussian mixture distribution. Theoretical analysis provides an optimizable upper bound for RegaVAE. Experimental results on various datasets demonstrate significant improvements in text generation quality and hallucination removal.

arxiv情報

著者 Jingcheng Deng,Liang Pang,Huawei Shen,Xueqi Cheng
発行日 2023-10-16 16:42:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク