要約
自然言語処理における機械学習アプローチの機能の急速な進歩は、過去 2 年間で大規模な言語モデルの台頭という形で最高潮に達しました。
最近の研究では、特に一部の分野で学術論文にこれらが前例なく採用されていることが示されていますが、天文学におけるそれらの普及については十分に研究されていません。
これを解決するために、ChatGPT が学術文書を生成する際に人間よりも頻繁に使用する単語を抽出し、合計 100 万件の記事を検索します。
このようにして、2000 年以降 NASA 天体物理データ システムによって追跡された天文学の出版作品における単語の出現頻度を評価します。その後、出現の統計分析を実行します。
ChatGPT が好む単語のリストを特定し、2024 年にこれらの単語が対照群に対して統計的に有意に増加していることを発見しました。これは他の分野の傾向と一致します。
これらの結果は、天文学論文の執筆においてこれらのモデルが広く採用されていることを示唆しています。
私たちは、組織、出版社、研究者が協力して、科学的な厳密性を維持しながらこれらのシステムの利点を最大化するための倫理的かつ実用的なガイドラインを特定することを奨励します。
要約(オリジナル)
Rapid progress in the capabilities of machine learning approaches in natural language processing has culminated in the rise of large language models over the last two years. Recent works have shown unprecedented adoption of these for academic writing, especially in some fields, but their pervasiveness in astronomy has not been studied sufficiently. To remedy this, we extract words that ChatGPT uses more often than humans when generating academic text and search a total of 1 million articles for them. This way, we assess the frequency of word occurrence in published works in astronomy tracked by the NASA Astrophysics Data System since 2000. We then perform a statistical analysis of the occurrences. We identify a list of words favoured by ChatGPT and find a statistically significant increase for these words against a control group in 2024, which matches the trend in other disciplines. These results suggest a widespread adoption of these models in the writing of astronomy papers. We encourage organisations, publishers, and researchers to work together to identify ethical and pragmatic guidelines to maximise the benefits of these systems while maintaining scientific rigour.
arxiv情報
| 著者 | Simone Astarita,Sandor Kruk,Jan Reerink,Pablo Gómez |
| 発行日 | 2024-09-06 13:52:57+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google