From Words to Worth: Newborn Article Impact Prediction with LLM

要約

学術的な状況が拡大するにつれて、新しく出版された膨大な数の著作の中から、潜在的に大きな影響を与える可能性のある論文を効率的に特定するという課題が重要になっています。
この論文では、微調整された LLM の機能を活用して、タイトルと要約のみに基づいて新しい記事の将来の影響を予測する、有望なアプローチを紹介します。
外部情報に大きく依存する従来の方法を超えて、提案された方法は、タイトルと要約および潜在的な影響のペアの大規模なコレクションから、非常に影響力のある論文に共有される意味論的特徴を識別します。
これらのセマンティック機能は、値、フィールド、および時間の正規化プロパティを備えた改良されたメトリック TNCSI_SP を回帰するためにさらに利用されます。
さらに、LLM を微調整するための包括的なデータセットが構築され、リリースされました。これには、対応するタイトル、要約、および TNCSI_SP を含む 12,000 を超えるエントリが含まれています。
NDCG@20 が 0.901 という定量的な結果は、提案されたアプローチが、競合他社と比較した場合、新生児用品の影響を予測する際に最先端のパフォーマンスを達成していることを示しています。
最後に、生まれたばかりの雑誌論文の影響を予測するための実際のアプリケーションを実証し、その注目に値する実用的価値を実証します。
全体として、私たちの調査結果は既存のパラダイムに疑問を投げかけ、学術的影響についてよりコンテンツに焦点を当てた予測への移行を提案し、新たな論文の影響を評価するための新たな洞察を提供します。

要約(オリジナル)

As the academic landscape expands, the challenge of efficiently identifying potentially high-impact articles among the vast number of newly published works becomes critical. This paper introduces a promising approach, leveraging the capabilities of fine-tuned LLMs to predict the future impact of newborn articles solely based on titles and abstracts. Moving beyond traditional methods heavily reliant on external information, the proposed method discerns the shared semantic features of highly impactful papers from a large collection of title-abstract and potential impact pairs. These semantic features are further utilized to regress an improved metric, TNCSI_SP, which has been endowed with value, field, and time normalization properties. Additionally, a comprehensive dataset has been constructed and released for fine-tuning the LLM, containing over 12,000 entries with corresponding titles, abstracts, and TNCSI_SP. The quantitative results, with an NDCG@20 of 0.901, demonstrate that the proposed approach achieves state-of-the-art performance in predicting the impact of newborn articles when compared to competitive counterparts. Finally, we demonstrate a real-world application for predicting the impact of newborn journal articles to demonstrate its noteworthy practical value. Overall, our findings challenge existing paradigms and propose a shift towards a more content-focused prediction of academic impact, offering new insights for assessing newborn article impact.

arxiv情報

著者 Penghai Zhao,Qinghua Xing,Kairan Dou,Jinyu Tian,Ying Tai,Jian Yang,Ming-Ming Cheng,Xiang Li
発行日 2024-08-07 17:52:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク