要約
この文書では、説明可能なアラビア語の自動事実確認システムである Ta’keed を紹介します。
既存の研究は多くの場合、主張を「真」または「偽」に分類することに焦点を当てていますが、特にアラビア語での主張の信頼性に関する説明の生成に関する研究は限られています。
Ta’keed は、情報取得と LLM ベースの主張検証という 2 つの主要コンポーネントを利用して、取得したスニペットに基づいて主張の真実性を評価することで、このギャップに対処します。
システムを評価するために、手動で位置調整された参照を含むテスト用のゴールドラベル付きデータセットである ArFactEx をコンパイルしました。
初期モデルは、分類タスクで有望な F1 スコア 0.72 を達成しました。
一方、システムが生成した説明は、構文的および意味的にゴールドスタンダードの説明と比較されます。
この研究では、意味的類似性を使用して評価することを推奨しており、平均コサイン類似性スコアは 0.76 になります。
さらに、さまざまなスニペットの量がクレーム分類の精度に及ぼす影響を調査し、上位 7 ヒットを使用したモデルが F1 スコア 0.77 で他のモデルを上回っているという潜在的な相関関係を明らかにしました。
要約(オリジナル)
This paper introduces Ta’keed, an explainable Arabic automatic fact-checking system. While existing research often focuses on classifying claims as ‘True’ or ‘False,’ there is a limited exploration of generating explanations for claim credibility, particularly in Arabic. Ta’keed addresses this gap by assessing claim truthfulness based on retrieved snippets, utilizing two main components: information retrieval and LLM-based claim verification. We compiled the ArFactEx, a testing gold-labelled dataset with manually justified references, to evaluate the system. The initial model achieved a promising F1 score of 0.72 in the classification task. Meanwhile, the system’s generated explanations are compared with gold-standard explanations syntactically and semantically. The study recommends evaluating using semantic similarities, resulting in an average cosine similarity score of 0.76. Additionally, we explored the impact of varying snippet quantities on claim classification accuracy, revealing a potential correlation, with the model using the top seven hits outperforming others with an F1 score of 0.77.
arxiv情報
著者 | Saud Althabiti,Mohammad Ammar Alsalka,Eric Atwell |
発行日 | 2024-01-25 10:43:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google