Tell Me Why: Explainable Public Health Fact-Checking with Large Language Models

要約

この論文は、公衆衛生上の主張を検証し、その真実性評価の説明や正当化を提供する大規模言語モデルの機能に焦点を当て、一連の実験を通じた説明可能なファクトチェックの包括的な分析を示しています。
さまざまなオープンソースモデルとクローズドソースモデルにわたるゼロ/少数ショットプロンプトとパラメータ効率の高い微調整の有効性を検証し、真実性予測と説明生成の分離タスクと共同タスクの両方でのパフォーマンスを検証します。
重要なのは、以前に確立された自動評価基準と人間による評価による新しい基準セットで構成される二重評価アプローチを採用していることです。
私たちの自動評価では、ゼロショット シナリオ内では GPT-4 が傑出したパフォーマンスを発揮しますが、ショット数が少なくパラメータ効率の高い微調整のコンテキストでは、オープンソース モデルがパフォーマンスのギャップを埋めるだけでなくその能力を実証していることが示されています。
ただし、場合によっては GPT-4 を超えます。
人間による評価では、金の説明に潜在的な問題があることを示すだけでなく、さらなるニュアンスが明らかになります。

要約(オリジナル)

This paper presents a comprehensive analysis of explainable fact-checking through a series of experiments, focusing on the ability of large language models to verify public health claims and provide explanations or justifications for their veracity assessments. We examine the effectiveness of zero/few-shot prompting and parameter-efficient fine-tuning across various open and closed-source models, examining their performance in both isolated and joint tasks of veracity prediction and explanation generation. Importantly, we employ a dual evaluation approach comprising previously established automatic metrics and a novel set of criteria through human evaluation. Our automatic evaluation indicates that, within the zero-shot scenario, GPT-4 emerges as the standout performer, but in few-shot and parameter-efficient fine-tuning contexts, open-source models demonstrate their capacity to not only bridge the performance gap but, in some instances, surpass GPT-4. Human evaluation reveals yet more nuance as well as indicating potential problems with the gold explanations.

arxiv情報

著者 Majid Zarharan,Pascal Wullschleger,Babak Behkam Kia,Mohammad Taher Pilehvar,Jennifer Foster
発行日 2024-05-15 15:49:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク