Transferable and Efficient Non-Factual Content Detection via Probe Training with Offline Consistency Checking

要約

非事実コンテンツの検出は、大規模言語モデル (LLM) 世代の信頼性を高めるための長年の目標です。
人間による注釈付きラベルを使用してトレーニングされた現在の事実調査は、配布外のコンテンツへの転送可能性が限られていますが、オンライン自己整合性チェックでは複数の出力を生成する必要があるため、膨大な計算負荷がかかります。
この論文では、オフラインの自己整合性チェックの結果に基づいてプローブ モデルをトレーニングする PINOSE を提案します。これにより、人間による注釈付きデータの必要性が回避され、多様なデータ分布にわたる転送可能性が実現されます。
整合性チェック プロセスはオフラインであるため、PINOSE はオンライン整合性検証によって複数の応答を生成する計算負荷を軽減します。
さらに、応答をデコードする前に内部状態のさまざまな側面を検査し、事実の不正確さのより効果的な検出に貢献します。
事実検出と質問応答ベンチマークの両方に関する実験結果は、PINOSE が既存の事実検出方法よりも優れた結果を達成することを示しています。
私たちのコードとデータセットは、この匿名化されたリポジトリで公開されています。

要約(オリジナル)

Detecting non-factual content is a longstanding goal to increase the trustworthiness of large language models (LLMs) generations. Current factuality probes, trained using humanannotated labels, exhibit limited transferability to out-of-distribution content, while online selfconsistency checking imposes extensive computation burden due to the necessity of generating multiple outputs. This paper proposes PINOSE, which trains a probing model on offline self-consistency checking results, thereby circumventing the need for human-annotated data and achieving transferability across diverse data distributions. As the consistency check process is offline, PINOSE reduces the computational burden of generating multiple responses by online consistency verification. Additionally, it examines various aspects of internal states prior to response decoding, contributing to more effective detection of factual inaccuracies. Experiment results on both factuality detection and question answering benchmarks show that PINOSE achieves surpassing results than existing factuality detection methods. Our code and datasets are publicly available on this anonymized repository.

arxiv情報

著者 Xiaokang Zhang,Zijun Yao,Jing Zhang,Kaifeng Yun,Jifan Yu,Juanzi Li,Jie Tang
発行日 2024-04-10 05:00:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク