VeriFastScore: Speeding up long-form factuality evaluation

要約

長い形式の事実を評価するFactScoreやVeriscoreなどのメトリックは、入力応答を原子クレームに分解し、各クレームを個別に検証することにより機能します。
効果的で解釈可能ですが、これらの方法は多数のLLMコールを負い、100秒以上かかることがあります。単一の応答を評価し、大規模な評価とトレーニングシナリオの実用性を制限します。
これに対処するために、Googleの検索からの証拠に基づいて特定のテキスト内のすべての検証可能なクレームを同時に抽出および検証するために、合成データを微調整するために合成データを活用するVerifastScoreを提案します。
このタスクは、その複雑さのために閉じたLLMSで数ショットのプロンプトを使用して解決できないことを示します。モデルは平均して〜4Kの証拠を受け取り、クレームを同時に分解し、検証可能性を判断し、騒々しい証拠に対して検証する必要があります。
ただし、微調整されたVerifastScoreモデルは、Veriscore上の6.6倍(エビデンス回収を除く9.9x)の全体的なスピードアップを達成しながら、例レベル(r = 0.80)とシステムレベル(r = 0.94)の両方で、元のVeriscoreパイプラインと強い相関関係を示しています。
将来の事実研究を促進するために、VerifastScoreモデルと合成データセットを公開します。

要約(オリジナル)

Metrics like FactScore and VeriScore that evaluate long-form factuality operate by decomposing an input response into atomic claims and then individually verifying each claim. While effective and interpretable, these methods incur numerous LLM calls and can take upwards of 100 seconds to evaluate a single response, limiting their practicality in large-scale evaluation and training scenarios. To address this, we propose VeriFastScore, which leverages synthetic data to fine-tune Llama3.1 8B for simultaneously extracting and verifying all verifiable claims within a given text based on evidence from Google Search. We show that this task cannot be solved via few-shot prompting with closed LLMs due to its complexity: the model receives ~4K tokens of evidence on average and needs to concurrently decompose claims, judge their verifiability, and verify them against noisy evidence. However, our fine-tuned VeriFastScore model demonstrates strong correlation with the original VeriScore pipeline at both the example level (r=0.80) and system level (r=0.94) while achieving an overall speedup of 6.6x (9.9x excluding evidence retrieval) over VeriScore. To facilitate future factuality research, we publicly release our VeriFastScore model and synthetic datasets.

arxiv情報

著者 Rishanth Rajendhran,Amir Zadeh,Matthew Sarte,Chuan Li,Mohit Iyyer
発行日 2025-05-22 17:51:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク