Calibrated Language Models Must Hallucinate

要約

最近の言語モデルには、誤っているがもっともらしく聞こえるテキストを生成するという不思議な傾向があります。
このような「幻覚」は、言語ベースの AI システムの使いやすさの障害となり、その出力に依存する人々に害を及ぼす可能性があります。
この研究は、トランスフォーマーの LM アーキテクチャやデータ品質とは何の関係もなく、事前トレーニングされた言語モデルが特定の種類の事実を幻覚させる固有の統計的理由があることを示しています。
訓練データから真実性を判断できない「任意の」事実については、生成言語モデルに適切な統計的校正条件を満たす言語モデルには幻覚が必要であることを示します。
具体的には、任意の事実の最大確率が制限されている場合、理想的なトレーニングを仮定した場合でも、幻覚を生成する確率はトレーニング データ内で 1 回だけ発生する事実の割合 (「グッド チューリング」推定) に近いことを示します。
エラーのないデータ。
1 つの結論は、十分に優れた予測子になるように事前トレーニングされた (つまり、校正された) モデルは、トレーニング セットに一度出現する傾向がある任意の事実の種類に関する幻覚を軽減するためにポストトレーニングを必要とする可能性があるということです。
ただし、私たちの分析では、事前トレーニングがトレーニング データに複数回出現する傾向にある事実 (幻覚が特に顕著で問題となっている記事や書籍などの出版物への参照など) に関する幻覚を引き起こす統計的理由がないことも示唆しています。
)または体系的な事実(算術計算など)。
したがって、さまざまなアーキテクチャと学習アルゴリズムにより、後者のタイプの幻覚が軽減される可能性があります。

要約(オリジナル)

Recent language models have a mysterious tendency to generate false but plausible-sounding text. Such ‘hallucinations’ are an obstacle to the usability of language-based AI systems and can harm people who rely upon their outputs. This work shows shows that there is an inherent statistical reason that pretrained language models hallucinate certain types of facts, having nothing to do with the transformer LM architecture or data quality. For ‘arbitrary’ facts whose veracity cannot be determined from the training data, we show that hallucination is necessary for language models that satisfy a statistical calibration condition appropriate for generative language models. Specifically, if the maximum probability of any fact is bounded, we show that the probability of generating a hallucination is close to the fraction of facts that occur exactly once in the training data (a ‘Good-Turing’ estimate), even assuming ideal training data without errors. One conclusion is that models pretrained to be sufficiently good predictors (i.e., calibrated) may require post-training to mitigate hallucinations on the type of arbitrary facts that tend to appear once in the training set. However, our analysis also suggests that there is no statistical reason that pretraining will lead to hallucination on facts that tend to appear more than once in the training data (like references to publications such as articles and books, whose hallucinations have been particularly notable and problematic) or on systematic facts (like arithmetic calculations). Therefore, different architectures and learning algorithms may mitigate these latter types of hallucinations.

arxiv情報

著者 Adam Tauman Kalai,Santosh S. Vempala
発行日 2023-11-24 18:29:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク