LM vs LM: Detecting Factual Errors via Cross Examination

要約

最新言語モデル (LM) の顕著な弱点は、事実に誤りのあるテキストを生成する傾向があり、それが使いやすさの妨げとなっています。
当然の疑問は、そのような事実上の誤りを自動的に検出できるかどうかということです。
法の真実探求メカニズムに触発されて、私たちは反対尋問に基づいたLMのための事実性評価フレームワークを提案します。
私たちの重要な考え方は、間違った主張はモデルが生成する他の主張との不一致を引き起こす可能性が高いということです。
このような矛盾を発見するために、クレームを生成した LM と、矛盾を発見するための質問を導入する別の LM (審査官として機能する) との間の複数ターンの対話を促進します。
私たちは、4 つのベンチマークで複数の最近の LM によって行われた事実上の主張に基づいて私たちの手法を経験的に評価し、既存の手法やベースラインよりも、多くの場合大きな差で優れていることを発見しました。
私たちの結果は、事実上の誤りを捕捉するために相互作用する LM を使用する可能性を示しています。

要約(オリジナル)

A prominent weakness of modern language models (LMs) is their tendency to generate factually incorrect text, which hinders their usability. A natural question is whether such factual errors can be detected automatically. Inspired by truth-seeking mechanisms in law, we propose a factuality evaluation framework for LMs that is based on cross-examination. Our key idea is that an incorrect claim is likely to result in inconsistency with other claims that the model generates. To discover such inconsistencies, we facilitate a multi-turn interaction between the LM that generated the claim and another LM (acting as an examiner) which introduces questions to discover inconsistencies. We empirically evaluate our method on factual claims made by multiple recent LMs on four benchmarks, finding that it outperforms existing methods and baselines, often by a large gap. Our results demonstrate the potential of using interacting LMs for capturing factual errors.

arxiv情報

著者 Roi Cohen,May Hamri,Mor Geva,Amir Globerson
発行日 2023-05-22 17:42:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク