The Perils & Promises of Fact-checking with Large Language Models


GPT-4 のような大規模言語モデル (LLM) は、情報を検証し、学術論文、訴訟、ニュース記事を執筆する際にますます信頼されており、真実と虚偽を識別する役割と、その出力を検証できることの重要性が強調されています。
ここでは、LLM エージェントにクエリを表現させ、コンテキスト データを取得させ、意思決定をさせることで、ファクト チェックにおける LLM エージェントの使用を評価します。
私たちの結果は、コンテキスト情報を装備すると LLM の能力が向上することを示しています。
GPT-4 は GPT-3 よりも優れていますが、精度はクエリ言語と主張の信憑性によって異なります。
LLM はファクトチェックに有望ですが、精度が一貫していないため注意が必要です。


Autonomous fact-checking, using machine learning to verify claims, has grown vital as misinformation spreads beyond human fact-checking capacity. Large Language Models (LLMs) like GPT-4 are increasingly trusted to verify information and write academic papers, lawsuits, and news articles, emphasizing their role in discerning truth from falsehood and the importance of being able to verify their outputs. Here, we evaluate the use of LLM agents in fact-checking by having them phrase queries, retrieve contextual data, and make decisions. Importantly, in our framework, agents explain their reasoning and cite the relevant sources from the retrieved context. Our results show the enhanced prowess of LLMs when equipped with contextual information. GPT-4 outperforms GPT-3, but accuracy varies based on query language and claim veracity. While LLMs show promise in fact-checking, caution is essential due to inconsistent accuracy. Our investigation calls for further research, fostering a deeper comprehension of when agents succeed and when they fail.


著者 Dorian Quelle,Alexandre Bovet
発行日 2023-10-20 14:49:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.CY, cs.HC パーマリンク