要約
学術論文の将来の引用率を予測することは、研究評価の自動化と科学的進歩の加速に向けた重要なステップです。
$ \ textbf {forecite} $を提示します。これは、平均的な毎月の引用率予測のために、事前に訓練された因果言語モデルを線形ヘッドで追加するためのシンプルだが強力なフレームワークを提示します。
回帰タスクにトランスを適応させるForeciteは、2000年から2024年に発行された900K+生物医学論文のキュレーションデータセットで$ \ rho = 0.826 $のテスト相関を実現し、以前の最先端で27ポイント改善されました。
包括的なスケーリング法解析により、モデルサイズとデータ量間で一貫したゲインが明らかになり、一時的なホールドアウト実験では実用的な堅牢性が確認されます。
グラデーションベースの顕著なヒートマップは、タイトルと抽象的なテキストに潜在的に過度の依存度を示唆しています。
これらの結果は、学術研究の長期的な影響を予測する新しい最先端を確立し、科学的貢献の自動化された高忠実度の評価の基礎を築きます。
要約(オリジナル)
Predicting the future citation rates of academic papers is an important step toward the automation of research evaluation and the acceleration of scientific progress. We present $\textbf{ForeCite}$, a simple but powerful framework to append pre-trained causal language models with a linear head for average monthly citation rate prediction. Adapting transformers for regression tasks, ForeCite achieves a test correlation of $\rho = 0.826$ on a curated dataset of 900K+ biomedical papers published between 2000 and 2024, a 27-point improvement over the previous state-of-the-art. Comprehensive scaling-law analysis reveals consistent gains across model sizes and data volumes, while temporal holdout experiments confirm practical robustness. Gradient-based saliency heatmaps suggest a potentially undue reliance on titles and abstract texts. These results establish a new state-of-the-art in forecasting the long-term influence of academic research and lay the groundwork for the automated, high-fidelity evaluation of scientific contributions.
arxiv情報
著者 | Gavin Hull,Alex Bihlo |
発行日 | 2025-05-13 20:10:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google