NCL-UoR at SemEval-2025 Task 3: Detecting Multilingual Hallucination and Related Observable Overgeneration Text Spans with Modified RefChecker and Modified SeflCheckGPT

要約

Semeval-2025タスク3(MU-Shroom)は、複数の言語でさまざまな大手言語モデル(LLM)によって生成されるコンテンツの幻覚の検出に焦点を当てています。
このタスクには、幻覚の存在を特定するだけでなく、特定の発生を特定することも含まれます。
この課題に取り組むために、この研究では、修正されたRefcheckerと修正されたSelfCheckgptの2つの方法を紹介します。
修正されたRefcheckerは、迅速な事実検証を参照に統合し、単一の外部知識ソースではなく、クレームベースのテストとして構成します。
修正されたSelfCheckGPTには、外部の知識が組み込まれて、内部知識への依存を克服します。
さらに、両方の方法の元のプロンプトデザインが強化され、LLMが生成したテキスト内の幻覚的な単語を識別します。
実験結果は、アプローチの有効性を示し、さまざまな言語での幻覚を検出する際にテストデータセットで高いランキングを達成し、平均IOUは0.5310、平均Corは0.5669です。

要約(オリジナル)

SemEval-2025 Task 3 (Mu-SHROOM) focuses on detecting hallucinations in content generated by various large language models (LLMs) across multiple languages. This task involves not only identifying the presence of hallucinations but also pinpointing their specific occurrences. To tackle this challenge, this study introduces two methods: modified RefChecker and modified SelfCheckGPT. The modified RefChecker integrates prompt-based factual verification into References, structuring them as claim-based tests rather than single external knowledge sources. The modified SelfCheckGPT incorporates external knowledge to overcome its reliance on internal knowledge. In addition, both methods’ original prompt designs are enhanced to identify hallucinated words within LLM-generated texts. Experimental results demonstrate the effectiveness of the approach, achieving a high ranking on the test dataset in detecting hallucinations across various languages, with an average IoU of 0.5310 and an average COR of 0.5669.

arxiv情報

著者 Jiaying Hong,Thanet Markchom,Jianfei Xu,Tong Wu,Huizhi Liang
発行日 2025-05-12 14:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク