The Perils & Promises of Fact-checking with Large Language Models

要約

誤った情報が人間の事実確認能力を超えて拡散するにつれて、機械学習を使用して主張を検証する自動化された事実確認が重要になってきています。
GPT-4 のような大規模言語モデル (LLM) は、学術論文、訴訟、ニュース記事の作成や情報の検証においてますます信頼されており、真実と虚偽を識別する役割と、その出力を検証できることの重要性が強調されています。
したがって、事実確認タスクにおける LLM の能力と制限を理解することは、情報エコシステムの健全性を確保するために不可欠です。
ここでは、LLM エージェントにクエリを表現させ、コンテキスト データを取得させ、意思決定をさせることで、ファクト チェックにおける LLM エージェントの使用を評価します。
重要なのは、私たちのフレームワークでは、エージェントが推論を説明し、取得したコンテキストから関連するソースを引用することです。
私たちの結果は、コンテキスト情報を装備すると LLM の能力が向上することを示しています。
GPT-4 は GPT-3 よりも優れていますが、精度はクエリ言語と主張の信憑性によって異なります。
LLM はファクトチェックに有望ですが、精度が一貫していないため注意が必要です。
私たちの調査では、エージェントがいつ成功し、いつ失敗するかをより深く理解するためのさらなる研究が必要です。

要約(オリジナル)

Automated fact-checking, using machine learning to verify claims, has grown vital as misinformation spreads beyond human fact-checking capacity. Large Language Models (LLMs) like GPT-4 are increasingly trusted to write academic papers, lawsuits, and news articles and to verify information, emphasizing their role in discerning truth from falsehood and the importance of being able to verify their outputs. Understanding the capacities and limitations of LLMs in fact-checking tasks is therefore essential for ensuring the health of our information ecosystem. Here, we evaluate the use of LLM agents in fact-checking by having them phrase queries, retrieve contextual data, and make decisions. Importantly, in our framework, agents explain their reasoning and cite the relevant sources from the retrieved context. Our results show the enhanced prowess of LLMs when equipped with contextual information. GPT-4 outperforms GPT-3, but accuracy varies based on query language and claim veracity. While LLMs show promise in fact-checking, caution is essential due to inconsistent accuracy. Our investigation calls for further research, fostering a deeper comprehension of when agents succeed and when they fail.

arxiv情報

著者 Dorian Quelle,Alexandre Bovet
発行日 2024-02-07 12:01:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.HC パーマリンク