要約
生物医学研究における学術的不正行為の検出既存の方法と断片化された分析パイプラインのアルゴリズムの狭さにより、依然として困難な依然として困難です。
Journal Metadata(SJR、Institutional Data)、Semantic Embeddings(PubMedbert)、およびGPT-4Oマイインドのテキスト属性(方法統計、データの異常)を総合的な原稿評価のために統合するマルチモーダルディープラーニングフレームワークであるBmmdetectを提示します。
主要な革新には以下が含まれます。(1)検出バイアスを減らすためのドメイン固有の特徴のマルチモーダル融合。
(2)特徴の重要性の定量的評価、ジャーナル当局のメトリック(例:SJR-Index)およびテキストの異常(例:統計的外れ値)を支配的な予測因子として識別する。
(3)BIOMCDデータセット、13,160の撤回された記事と53,411のコントロールを備えた大規模なベンチマーク。
BMMDETECTは74.33%のAUCを達成し、シングルモダリティのベースラインを8.6%上回り、生物医学サブフィールド間の移動性を示しています。
この作業は、研究の完全性を保護するためのスケーラブルで解釈可能なツールを進めます。
要約(オリジナル)
Academic misconduct detection in biomedical research remains challenging due to algorithmic narrowness in existing methods and fragmented analytical pipelines. We present BMMDetect, a multimodal deep learning framework that integrates journal metadata (SJR, institutional data), semantic embeddings (PubMedBERT), and GPT-4o-mined textual attributes (methodological statistics, data anomalies) for holistic manuscript evaluation. Key innovations include: (1) multimodal fusion of domain-specific features to reduce detection bias; (2) quantitative evaluation of feature importance, identifying journal authority metrics (e.g., SJR-index) and textual anomalies (e.g., statistical outliers) as dominant predictors; and (3) the BioMCD dataset, a large-scale benchmark with 13,160 retracted articles and 53,411 controls. BMMDetect achieves 74.33% AUC, outperforming single-modality baselines by 8.6%, and demonstrates transferability across biomedical subfields. This work advances scalable, interpretable tools for safeguarding research integrity.
arxiv情報
著者 | Yize Zhou,Jie Zhang,Meijie Wang,Lun Yu |
発行日 | 2025-05-09 03:53:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google