On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse

要約

言語モデルの望ましいプロパティをすべて指定することは困難ですが、特定の要件は不可欠であると思われます。
未知の言語からのサンプルが与えられると、トレーニングされたモデルはトレーニングでは見られない有効な文字列を生成し、言語の豊かさを完全に捉えるのに十分な表現力を持つ必要があります。
そうしないと、無効な文字列を出力すると「幻覚」が発生し、全範囲をキャプチャできないと「モード崩壊」が発生します。
言語モデルが両方の要件を満たすことができるかどうかを尋ねます。
私たちは、Gold と Anluin に基づいて構築された統計言語生成設定内でこれを調査します。
ここで、モデルは、おそらく無限の言語コレクションに属する未知の言語 K の分布からランダムなサンプルを受け取ります。
目標は、K から目に見えない文字列を生成することです。トレーニング サイズが増加するにつれて、その出力が K 内のすべての目に見えない文字列に収束する場合、モデルは一貫性と幅広さを持って K から生成されていると言えます。 Kleinberg と Mullainathan [KM24] は、K に一貫性と幅があるかどうかを尋ねました。
言語生成が可能です。
私たちはこれに否定的に答えます。ネクストトークン予測モデルを含む大規模なクラスの言語モデルでは、候補言語のほとんどのコレクションではこれは不可能です。
これは [KM24] の結果とは対照的で、可算言語のコレクションであれば幅を持たずに一貫した生成が可能であることを示しています。
私たちの調査結果は、幅のある世代と幅のない世代が根本的に異なることを強調しています。
副産物として、幅の有無にかかわらず、生成に必要なサンプル数にほぼ厳しい制限を設けます。
最後に、私たちの結果は希望をもたらします。負の例 (K 以外の文字列) が正の例と並んで利用できる場合、可算言語のコレクションに対して幅広く一貫性のある生成が達成可能です。
これは、ネガティブな例をコード化するトレーニング後のフィードバックが、モード崩壊を制限しながら幻覚を軽減する上で重要である可能性があることを示唆しています。

要約(オリジナル)

Specifying all desirable properties of a language model is challenging, but certain requirements seem essential. Given samples from an unknown language, the trained model should produce valid strings not seen in training and be expressive enough to capture the language’s full richness. Otherwise, outputting invalid strings constitutes ‘hallucination,’ and failing to capture the full range leads to ‘mode collapse.’ We ask if a language model can meet both requirements. We investigate this within a statistical language generation setting building on Gold and Angluin. Here, the model receives random samples from a distribution over an unknown language K, which belongs to a possibly infinite collection of languages. The goal is to generate unseen strings from K. We say the model generates from K with consistency and breadth if, as training size increases, its output converges to all unseen strings in K. Kleinberg and Mullainathan [KM24] asked if consistency and breadth in language generation are possible. We answer this negatively: for a large class of language models, including next-token prediction models, this is impossible for most collections of candidate languages. This contrasts with [KM24]’s result, showing consistent generation without breadth is possible for any countable collection of languages. Our finding highlights that generation with breadth fundamentally differs from generation without breadth. As a byproduct, we establish near-tight bounds on the number of samples needed for generation with or without breadth. Finally, our results offer hope: consistent generation with breadth is achievable for any countable collection of languages when negative examples (strings outside K) are available alongside positive ones. This suggests that post-training feedback, which encodes negative examples, can be crucial in reducing hallucinations while limiting mode collapse.

arxiv情報

著者 Alkis Kalavasis,Anay Mehrotra,Grigoris Velegkas
発行日 2024-11-14 18:06:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DS, cs.LG, stat.ML パーマリンク