ViWikiFC: Fact-Checking for Vietnamese Wikipedia-Based Textual Knowledge Source

要約

メディアエコシステムでは誤った情報が急増しているため、ファクトチェックは不可欠です。
あらゆる言語や国に誤った情報が存在しますが、この問題を解決するための研究のほとんどは、主に英語や中国語などの巨大なコミュニティに集中していました。
事実検証のためのコーパスやモデルを探索するには、ベトナム語のようなリソースの少ない言語が必要です。
このギャップを埋めるために、私たちは ViWikiFC を構築しました。これは、Wikipedia の記事から抽出された証拠文を変換することによって生成された、ベトナム語 Wikipedia ファクト チェック用の最初の手動注釈付きオープンドメイン コーパスです。
新しい依存率、新しい N-gram 率、新しい単語率など、多くの言語的側面を通じてコーパスを分析します。
私たちは、証拠検索や判決予測など、ベトナムの事実確認のためのさまざまな実験を実施しました。
BM25 と InfoXLM (Large) は 2 つのタスクで最高の結果を達成しました。証拠検索タスクでは、BM25 が SUPPORTS で 88.30%、REFUTES で 86.93%、NEI ラベルで 56.67% の精度を達成しただけで、InfoXLM (Large) は
F1スコアは86.51%。
さらに、パイプライン アプローチも実行しましたが、InfoXLM (Large) と BM25 を使用した場合、厳密な精度は 67.00% のみに達しました。
これらの結果は、私たちのデータセットが事実確認タスクにおけるベトナム語モデルにとって困難であることを示しています。

要約(オリジナル)

Fact-checking is essential due to the explosion of misinformation in the media ecosystem. Although false information exists in every language and country, most research to solve the problem mainly concentrated on huge communities like English and Chinese. Low-resource languages like Vietnamese are necessary to explore corpora and models for fact verification. To bridge this gap, we construct ViWikiFC, the first manual annotated open-domain corpus for Vietnamese Wikipedia Fact Checking more than 20K claims generated by converting evidence sentences extracted from Wikipedia articles. We analyze our corpus through many linguistic aspects, from the new dependency rate, the new n-gram rate, and the new word rate. We conducted various experiments for Vietnamese fact-checking, including evidence retrieval and verdict prediction. BM25 and InfoXLM (Large) achieved the best results in two tasks, with BM25 achieving an accuracy of 88.30% for SUPPORTS, 86.93% for REFUTES, and only 56.67% for the NEI label in the evidence retrieval task, InfoXLM (Large) achieved an F1 score of 86.51%. Furthermore, we also conducted a pipeline approach, which only achieved a strict accuracy of 67.00% when using InfoXLM (Large) and BM25. These results demonstrate that our dataset is challenging for the Vietnamese language model in fact-checking tasks.

arxiv情報

著者 Hung Tuan Le,Long Truong To,Manh Trong Nguyen,Kiet Van Nguyen
発行日 2024-05-13 10:24:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク