要約
かなりの数の公開されている科学記事の数は、詐欺的な慣行を含むことがわかっており、医学などの分野での研究の信頼性と安全性に対する深刻な脅威をもたらします。
生物医学の科学記事の詐欺検出に合わせた最初の大規模な言語モデルベースのシステムであるPub-Guard-llmを提案します。
Pub-Guard-llmの展開のための3つのアプリケーションモード、Vanilla Reasoning、検索の高級世代、およびマルチエージェントの議論を提供します。
各モードでは、予測のテキストの説明が可能になります。
システムのパフォーマンスを評価するために、メタデータや収縮ラベルを含む11K以上の実世界の生物医学物品を含む、オープンソースベンチマークであるPubMed Retractionを紹介します。
すべてのモードで、Pub-Guard-llmがさまざまなベースラインのパフォーマンスを一貫して上回り、より信頼できる説明、つまり、複数の評価方法で評価されたときにベースラインによって生成されたものよりも関連性がありコヒーレントと見なされる説明を提供することを示します。
科学的詐欺検出の検出性能と説明可能性の両方を高めることにより、Pub-Guard-llmは、斬新で効果的なオープンソースツールで研究の完全性を保護することに貢献します。
要約(オリジナル)
A significant and growing number of published scientific articles is found to involve fraudulent practices, posing a serious threat to the credibility and safety of research in fields such as medicine. We propose Pub-Guard-LLM, the first large language model-based system tailored to fraud detection of biomedical scientific articles. We provide three application modes for deploying Pub-Guard-LLM: vanilla reasoning, retrieval-augmented generation, and multi-agent debate. Each mode allows for textual explanations of predictions. To assess the performance of our system, we introduce an open-source benchmark, PubMed Retraction, comprising over 11K real-world biomedical articles, including metadata and retraction labels. We show that, across all modes, Pub-Guard-LLM consistently surpasses the performance of various baselines and provides more reliable explanations, namely explanations which are deemed more relevant and coherent than those generated by the baselines when evaluated by multiple assessment methods. By enhancing both detection performance and explainability in scientific fraud detection, Pub-Guard-LLM contributes to safeguarding research integrity with a novel, effective, open-source tool.
arxiv情報
著者 | Lihu Chen,Shuojie Fu,Gabriel Freedman,Cemre Zor,Guy Martin,James Kinross,Uddhav Vaghela,Ovidiu Serban,Francesca Toni |
発行日 | 2025-04-08 10:27:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google