要約
最先端の言語モデル (LM) は、「幻覚を引き起こす」参照で有名です。
これらの捏造された記事や書籍のタイトルは、危害、使用の障害、世間の反発につながります。
他の種類の LM 幻覚も重要ですが、特に研究が容易なため、大規模言語モデル (LLM) における幻覚研究の「ショウジョウバエ」として幻覚参照を提案します。
単純な検索エンジンのクエリによってそのような幻覚が確実に特定され、評価が容易になることを示します。
幻覚を起こした LM 参照の性質を分析し始めるために、外部リソースを一切参考にせずに、同じ LM に対するブラックボックス クエリを使用してそれらを分類しようとします。
生成された参照タイトルが本物かどうかについての「直接」クエリで行われた一貫性チェック (Kadavath et al. 2022、Lin et al. 2022、Manakul et al. 2023 からインスピレーションを得た) を、次のことを求める「間接」クエリを使用した一貫性チェックと比較します。
作品の作者などの付随的な詳細。
これらの一貫性チェックは、参照が幻覚であるかどうかを部分的に信頼できる指標であることがわかっています。
特に、LM は、実際の参考文献の著者を一貫して特定しながら、独立したセッションでクエリを実行すると、幻覚参考文献の異なる著者を幻覚することがよくあることがわかりました。
これは、幻覚が現在のトレーニング技術や表現に固有のものというよりは、世代の問題である可能性があることを示唆しています。
要約(オリジナル)
State-of-the-art language models (LMs) are famous for ‘hallucinating’ references. These fabricated article and book titles lead to harms, obstacles to their use, and public backlash. While other types of LM hallucinations are also important, we propose hallucinated references as the ‘drosophila’ of research on hallucination in large language models (LLMs), as they are particularly easy to study. We show that simple search engine queries reliably identify such hallucinations, which facilitates evaluation. To begin to dissect the nature of hallucinated LM references, we attempt to classify them using black-box queries to the same LM, without consulting any external resources. Consistency checks done with ‘direct’ queries about whether the generated reference title is real (inspired by Kadavath et al. 2022, Lin et al. 2022, Manakul et al. 2023) are compared to consistency checks with ‘indirect’ queries which ask for ancillary details such as the authors of the work. These consistency checks are found to be partially reliable indicators of whether or not the reference is a hallucination. In particular, we find that LMs often hallucinate differing authors of hallucinated references when queried in independent sessions, while consistently identify authors of real references. This suggests that the hallucination may be more a generation issue than inherent to current training techniques or representation.
arxiv情報
著者 | Ayush Agrawal,Mirac Suzgun,Lester Mackey,Adam Tauman Kalai |
発行日 | 2023-09-13 13:58:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google