要約
現実世界のさまざまなアプリケーションで大規模言語モデル (LLM) の使用が増加しているため、その出力の事実の正確さを検証するメカニズムが必要です。
オープンドメインにおける自由形式の回答の事実性を評価することは困難です。
また、異なる論文では異なる評価ベンチマークや測定値が使用されているため、比較が難しくなり、将来の進歩が妨げられます。
これらの問題を軽減するために、LLM 向けの統一事実評価フレームワークである OpenFactCheck を提案します。
OpenFactCheck は 3 つのモジュールで構成されます: (i) CUSTCHECKER により、ユーザーは自動ファクトチェッカーを簡単にカスタマイズし、文書や請求の事実の正しさを検証できます。 (ii) 統一された評価フレームワークである LLMEVAL は、LLM の事実能力をさまざまな観点から公平に評価します。
iii) CHECKEREVAL は、人間が注釈を付けたデータセットを使用した自動ファクトチェッカーの検証結果の信頼性を評価するための拡張可能なソリューションです。
OpenFactCheck は https://github.com/yuxiaw/OpenFactCheck で公開されています。
要約(オリジナル)
The increased use of large language models (LLMs) across a variety of real-world applications calls for mechanisms to verify the factual accuracy of their outputs. Difficulties lie in assessing the factuality of free-form responses in open domains. Also, different papers use disparate evaluation benchmarks and measurements, which renders them hard to compare and hampers future progress. To mitigate these issues, we propose OpenFactCheck, a unified factuality evaluation framework for LLMs. OpenFactCheck consists of three modules: (i) CUSTCHECKER allows users to easily customize an automatic fact-checker and verify the factual correctness of documents and claims, (ii) LLMEVAL, a unified evaluation framework assesses LLM’s factuality ability from various perspectives fairly, and (iii) CHECKEREVAL is an extensible solution for gauging the reliability of automatic fact-checkers’ verification results using human-annotated datasets. OpenFactCheck is publicly released at https://github.com/yuxiaw/OpenFactCheck.
arxiv情報
著者 | Yuxia Wang,Minghan Wang,Hasan Iqbal,Georgi Georgiev,Jiahui Geng,Preslav Nakov |
発行日 | 2024-05-09 07:15:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google