How Deep Do Large Language Models Internalize Scientific Literature and Citation Practices?

要約

科学的知識の普及は、研究者がどのように先行研究を発見し、引用するかによって決まる。科学研究のプロセスにおける大規模言語モデル(LLM)の採用は、このような引用の実践に新たなレイヤーを導入するものである。しかし、LLMがどの程度人間の引用慣行と一致しているのか、LLMがどのような領域でどのように機能しているのか、また、引用のダイナミクスに影響を与える可能性はまだ不明である。本論文では、LLMが引用文献を生成する際に一貫して被引用数の多い論文を優先することで、被引用におけるマシュー効果を系統的に強化していることを示す。このパターンは、外部書誌データベースの既存レコードと一致する参考文献の割合である存在率が分野によって大きく異なるにもかかわらず、科学分野全体にわたって持続している。GPT-4oによって生成された274,951の文献を10,000の論文について分析した結果、LLMの推奨は、タイトルが短く、著者の数が少ない、より新しい文献を好むことによって、従来の引用パターンから乖離していることがわかった。内容レベルの関連性を強調することで、生成された参考文献は、グランドトゥルースの参考文献と同等のレベルで各論文の内容と意味的に整合しており、著者の自己引用を減らしながら、同様のネットワーク効果を示している。これらの知見は、LLMがいかに引用の慣行を再構築し、確立された傾向を反映し増幅することによって科学的発見の軌道に影響を与えるかを示している。LLMが科学研究のプロセスに組み込まれるようになるにつれ、科学コミュニティが先行研究を発見し、それを基に研究を構築する方法を形成する上で、LLMが果たす役割を理解することが重要である。

要約(オリジナル)

The spread of scientific knowledge depends on how researchers discover and cite previous work. The adoption of large language models (LLMs) in the scientific research process introduces a new layer to these citation practices. However, it remains unclear to what extent LLMs align with human citation practices, how they perform across domains, and may influence citation dynamics. Here, we show that LLMs systematically reinforce the Matthew effect in citations by consistently favoring highly cited papers when generating references. This pattern persists across scientific domains despite significant field-specific variations in existence rates, which refer to the proportion of generated references that match existing records in external bibliometric databases. Analyzing 274,951 references generated by GPT-4o for 10,000 papers, we find that LLM recommendations diverge from traditional citation patterns by preferring more recent references with shorter titles and fewer authors. Emphasizing their content-level relevance, the generated references are semantically aligned with the content of each paper at levels comparable to the ground truth references and display similar network effects while reducing author self-citations. These findings illustrate how LLMs may reshape citation practices and influence the trajectory of scientific discovery by reflecting and amplifying established trends. As LLMs become more integrated into the scientific research process, it is important to understand their role in shaping how scientific communities discover and build upon prior work.

arxiv情報

著者 Andres Algaba,Vincent Holst,Floriano Tori,Melika Mobini,Brecht Verbeken,Sylvia Wenmackers,Vincent Ginis
発行日 2025-04-03 17:04:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.DL, cs.LG, cs.SI パーマリンク