Forgotten Knowledge: Examining the Citational Amnesia in NLP


総合すると、多様な論文を (時間と研究分野において) 引用することは、コミュニティがどれだけ広く読んでいるかを示す指標となります。
この研究は体系的かつ経験的に次のことを調査します: 私たちは論文を引用するためにどのくらい過去まで遡る傾向があるのでしょうか?
私たちは対象分野として NLP を選択し、約 71.5K の論文を分析して、引用におけるいくつかの重要な傾向を示し、定量化しました。
注目すべきことに、引用論文の約 62% は出版の直前 5 年のものであるのに対し、10 年以上前の論文は約 17% のみです。
さらに、被引用論文の年齢の中央値と年齢の多様性は、1990 年から 2014 年にかけて着実に増加していましたが、それ以降、傾向が逆転し、現在の NLP 論文は時間的な引用の多様性が史上最も低いことを示しました。
最後に、1990 年代とは異なり、過去 10 年間に多く引用された論文は引用の多様性が最も少ない論文でもあり、これが強烈な (そして間違いなく有害な) 最新性への注目に寄与している可能性があることを示します。


Citing papers is the primary method through which modern scientific writing discusses and builds on past work. Collectively, citing a diverse set of papers (in time and area of study) is an indicator of how widely the community is reading. Yet, there is little work looking at broad temporal patterns of citation. This work systematically and empirically examines: How far back in time do we tend to go to cite papers? How has that changed over time, and what factors correlate with this citational attention/amnesia? We chose NLP as our domain of interest and analyzed approximately 71.5K papers to show and quantify several key trends in citation. Notably, around 62% of cited papers are from the immediate five years prior to publication, whereas only about 17% are more than ten years old. Furthermore, we show that the median age and age diversity of cited papers were steadily increasing from 1990 to 2014, but since then, the trend has reversed, and current NLP papers have an all-time low temporal citation diversity. Finally, we show that unlike the 1990s, the highly cited papers in the last decade were also papers with the least citation diversity, likely contributing to the intense (and arguably harmful) recency focus. Code, data, and a demo are available on the project homepage.


著者 Janvijay Singh,Mukund Rungta,Diyi Yang,Saif M. Mohammad
発行日 2023-07-31 17:38:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.DL パーマリンク