Claim Check-Worthiness Detection: How Well do LLMs Grasp Annotation Guidelines?

要約

偽情報の脅威が増大しているため、事実確認パイプラインの一部を自動化することが求められています。
ファクト チェックが必要なテキスト セグメントの特定は、クレーム検出 (CD) およびクレーム チェック価値検出 (CW) として知られています。後者には、複雑なドメイン固有の価値基準が組み込まれており、多くの場合、ランキング タスクとして構成されます。
ゼロショットおよび少数ショットの LLM プロンプトは、ラベル付きデータセットの必要性を回避し、言語化された主張と価値の基準をプロンプトに直接使用できるため、両方のタスクにとって魅力的なオプションです。
さまざまなドメインからの 5 つの CD/CW データセットで、それぞれが異なる価値基準を利用して、LLM の予測精度とキャリブレーション精度を評価します。
私たちは 2 つの重要な側面を調査します。(1) 事実と価値の基準をプロンプトに抽出する最適な方法と、(2) 各主張にどの程度のコンテキストを提供するかです。
この目的を達成するために、プロンプトの冗長性のレベルとモデルに提供されるコンテキスト情報の量を変化させて実験します。
私たちの結果は、最適なプロンプトの冗長性はドメインに依存し、コンテキストを追加してもパフォーマンスは向上せず、信頼性スコアを直接使用して信頼性の高い検査価値ランキングを生成できることを示しています。

要約(オリジナル)

The increasing threat of disinformation calls for automating parts of the fact-checking pipeline. Identifying text segments requiring fact-checking is known as claim detection (CD) and claim check-worthiness detection (CW), the latter incorporating complex domain-specific criteria of worthiness and often framed as a ranking task. Zero- and few-shot LLM prompting is an attractive option for both tasks, as it bypasses the need for labeled datasets and allows verbalized claim and worthiness criteria to be directly used for prompting. We evaluate the LLMs’ predictive and calibration accuracy on five CD/CW datasets from diverse domains, each utilizing a different worthiness criterion. We investigate two key aspects: (1) how best to distill factuality and worthiness criteria into a prompt and (2) what amount of context to provide for each claim. To this end, we experiment with varying the level of prompt verbosity and the amount of contextual information provided to the model. Our results show that optimal prompt verbosity is domain-dependent, adding context does not improve performance, and confidence scores can be directly used to produce reliable check-worthiness rankings.

arxiv情報

著者 Laura Majer,Jan Šnajder
発行日 2024-04-18 13:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク