要約
科学論文に不正行為が含まれていることが明らかになり、その数は増加の一途をたどっており、医学などの分野における研究の信頼性と安全性に深刻な脅威をもたらしている。我々はPub-Guard-LLMを提案する。Pub-Guard-LLMはバイオメディカル科学論文の不正検出に特化した初の大規模言語モデルベースのシステムである。我々はPub-Guard-LLMを展開するための3つのアプリケーションモードを提供する:バニラ推論、検索拡張生成、マルチエージェント討論。各モードでは予測結果をテキストで説明することができる。我々のシステムの性能を評価するために、メタデータと撤回ラベルを含む11K以上の実世界の生物医学論文からなるオープンソースのベンチマーク、PubMed Retractionを紹介する。その結果、Pub-Guard-LLMは全てのモードにおいて一貫して様々なベースラインの性能を凌駕し、より信頼性の高い説明、すなわち、複数の評価方法によって評価された場合にベースラインによって生成された説明よりも関連性が高く首尾一貫しているとみなされる説明を提供することが示された。Pub-Guard-LLMは、科学的不正検出における検出性能と説明可能性の両方を向上させることで、新規かつ効果的なオープンソースツールを用いて研究の完全性を守ることに貢献する。
要約(オリジナル)
A significant and growing number of published scientific articles is found to involve fraudulent practices, posing a serious threat to the credibility and safety of research in fields such as medicine. We propose Pub-Guard-LLM, the first large language model-based system tailored to fraud detection of biomedical scientific articles. We provide three application modes for deploying Pub-Guard-LLM: vanilla reasoning, retrieval-augmented generation, and multi-agent debate. Each mode allows for textual explanations of predictions. To assess the performance of our system, we introduce an open-source benchmark, PubMed Retraction, comprising over 11K real-world biomedical articles, including metadata and retraction labels. We show that, across all modes, Pub-Guard-LLM consistently surpasses the performance of various baselines and provides more reliable explanations, namely explanations which are deemed more relevant and coherent than those generated by the baselines when evaluated by multiple assessment methods. By enhancing both detection performance and explainability in scientific fraud detection, Pub-Guard-LLM contributes to safeguarding research integrity with a novel, effective, open-source tool.
arxiv情報
著者 | Lihu Chen,Shuojie Fu,Gabriel Freedman,Cemre Zor,Guy Martin,James Kinross,Uddhav Vaghela,Ovidiu Serban,Francesca Toni |
発行日 | 2025-04-04 15:21:03+00:00 |
arxivサイト | arxiv_id(pdf) |