HRDE: Retrieval-Augmented Large Language Models for Chinese Health Rumor Detection and Explainability

要約

人々が健康を優先するようになるにつれ、インターネット上での健康情報発信のスピードと幅も広がっている。同時に、偽の健康情報(健康風評)が本物のコンテンツに混じって存在することは、公衆衛生に対する重大な潜在的脅威となっている。しかし、中国の健康風評に関する現在の研究には、効果的で信頼できる風評検出方法だけでなく、大規模で公開されたオープンソースの健康風評情報のデータセットがまだ不足している。本論文では、一般的な健康に関する質問のウェブスクレイピングと一連のデータ処理ステップを通じて、112万件の健康に関する噂を含むデータセット(HealthRCN)を構築することで、このギャップに対処する。HealthRCNは、現在までに知られている中国の健康情報の噂のデータセットとしては最大である。このデータセットに基づき、我々は中国の健康噂の検出と説明可能性(HRDE)のための検索補強された大規模言語モデルを提案する。このモデルは、検索された関連情報を活用して、入力された健康情報が噂であるかどうかを正確に判断し、説明的な応答を提供することで、ユーザが健康情報の真偽を確認するのを効果的に支援する。評価実験では、複数のモデルを比較した結果、HRDEは噂の検出精度と回答の質において、GPT-4-1106-Previewを含むすべてのモデルを上回った。HRDEは平均精度91.04%、F1スコア91.58%を達成した。

要約(オリジナル)

As people increasingly prioritize their health, the speed and breadth of health information dissemination on the internet have also grown. At the same time, the presence of false health information (health rumors) intermingled with genuine content poses a significant potential threat to public health. However, current research on Chinese health rumors still lacks a large-scale, public, and open-source dataset of health rumor information, as well as effective and reliable rumor detection methods. This paper addresses this gap by constructing a dataset containing 1.12 million health-related rumors (HealthRCN) through web scraping of common health-related questions and a series of data processing steps. HealthRCN is the largest known dataset of Chinese health information rumors to date. Based on this dataset, we propose retrieval-augmented large language models for Chinese health rumor detection and explainability (HRDE). This model leverages retrieved relevant information to accurately determine whether the input health information is a rumor and provides explanatory responses, effectively aiding users in verifying the authenticity of health information. In evaluation experiments, we compared multiple models and found that HRDE outperformed them all, including GPT-4-1106-Preview, in rumor detection accuracy and answer quality. HRDE achieved an average accuracy of 91.04% and an F1 score of 91.58%.

arxiv情報

著者 Yanfang Chen,Ding Chen,Shichao Song,Simin Niu,Hanyu Wang,Zeyun Tang,Feiyu Xiong,Zhiyu Li
発行日 2024-07-03 15:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク