要約
現実世界のさまざまなアプリケーションで大規模言語モデル (LLM) の使用が増加しているため、LLM は幻覚を起こすことが多いため、その出力の事実の正確さをチェックする自動ツールが必要です。
これは、自由形式のオープンドメイン回答の事実性を評価する必要があるため、困難です。
このテーマに関しては多くの研究が行われていますが、論文ごとに異なる評価ベンチマークや尺度が使用されているため、比較が難しく、今後の進歩の妨げとなっています。
これらの問題を軽減するために、私たちは 3 つのモジュールを備えた統合フレームワークである OpenFactCheck を開発しました。(i) RESPONSEEVAL。これにより、ユーザーは自動ファクト チェック システムを簡単にカスタマイズし、そのシステムを使用して入力文書内のすべての主張の事実性を評価できます。
(ii) LLM の全体的な事実性を評価する LLMEVAL、および (iii) 自動事実確認システムを評価するモジュールである CHECKEREVAL。
OpenFactCheck はオープンソース (https://github.com/mbzuai-nlp/openfactcheck) であり、Python ライブラリ (https://pypi.org/project/openfactcheck/) として、また Web サービス (http:
//app.openfactcheck.com)。
システムを説明するビデオは https://youtu.be/-i9VKL0HleI でご覧いただけます。
要約(オリジナル)
The increased use of large language models (LLMs) across a variety of real-world applications calls for automatic tools to check the factual accuracy of their outputs, as LLMs often hallucinate. This is difficult as it requires assessing the factuality of free-form open-domain responses. While there has been a lot of research on this topic, different papers use different evaluation benchmarks and measures, which makes them hard to compare and hampers future progress. To mitigate these issues, we developed OpenFactCheck, a unified framework, with three modules: (i) RESPONSEEVAL, which allows users to easily customize an automatic fact-checking system and to assess the factuality of all claims in an input document using that system, (ii) LLMEVAL, which assesses the overall factuality of an LLM, and (iii) CHECKEREVAL, a module to evaluate automatic fact-checking systems. OpenFactCheck is open-sourced (https://github.com/mbzuai-nlp/openfactcheck) and publicly released as a Python library (https://pypi.org/project/openfactcheck/) and also as a web service (http://app.openfactcheck.com). A video describing the system is available at https://youtu.be/-i9VKL0HleI.
arxiv情報
著者 | Hasan Iqbal,Yuxia Wang,Minghan Wang,Georgi Georgiev,Jiahui Geng,Iryna Gurevych,Preslav Nakov |
発行日 | 2024-11-06 18:07:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google