Do Language Models Know When They’re Hallucinating References?

要約

現在の最先端の言語モデル (LM) は、「幻覚」を伴うテキストを生成することで悪名が高く、その主な例として、トレーニング データに確固たる根拠が欠けている書籍や論文の参考文献が挙げられます。
ただし、これらの捏造の多くは、外部リソースをまったく参照せずに、同じ LM を使用してブラックボックス クエリのみを使用して特定できることがわかりました。
生成された参照タイトルが本物かどうかについての直接クエリで行われる一貫性チェック (Kadavath et al. 2022、Lin et al. 2022、Manakul et al. 2023 からインスピレーションを受けた) は、次のような補助的な詳細を求める間接クエリによる一貫性チェックと比較されます。
作品の作者。
これらの一貫性チェックは、参照が幻覚であるかどうかを部分的に信頼できる指標であることがわかっています。
特に、GPT シリーズの LM は、独立したセッションでクエリを実行すると、幻覚参照の異なる著者を幻覚させる一方で、実際の参照の著者を一貫して識別することがわかりました。
これは、幻覚が根底にある表現よりも生成技術の結果である可能性があることを示唆しています。

要約(オリジナル)

Current state-of-the-art language models (LMs) are notorious for generating text with ‘hallucinations,’ a primary example being book and paper references that lack any solid basis in their training data. However, we find that many of these fabrications can be identified using the same LM, using only black-box queries without consulting any external resources. Consistency checks done with direct queries about whether the generated reference title is real (inspired by Kadavath et al. 2022, Lin et al. 2022, Manakul et al. 2023) are compared to consistency checks with indirect queries which ask for ancillary details such as the authors of the work. These consistency checks are found to be partially reliable indicators of whether or not the reference is a hallucination. In particular, we find that LMs in the GPT-series will hallucinate differing authors of hallucinated references when queried in independent sessions, while it will consistently identify authors of real references. This suggests that the hallucination may be more a result of generation techniques than the underlying representation.

arxiv情報

著者 Ayush Agrawal,Lester Mackey,Adam Tauman Kalai
発行日 2023-05-29 17:12:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク