ChatGPT v Bard v Bing v Claude 2 v Aria v human-expert. How good are AI chatbots at scientific writing?

要約

歴史的にライティングの習熟に重点が置かれてきたのは、生成 AI、特に科学的ライティングの進歩に伴って変化してきました。
この研究では、人文科学と考古学の学術論文を執筆するための 6 つの AI チャットボットを分析しました。
事実の正しさと科学的貢献を評価する方法を使用すると、ChatGPT-4 が最も高い定量的精度を示し、僅差で ChatGPT-3.5、Bing、Bard が続きました。
ただし、クロード 2 とアリアのスコアはかなり低くなりました。
定性的には、すべての AI が既存の知識を統合する能力を示しましたが、オリジナルの科学的内容を生み出すものはありませんでした。
興味深いことに、私たちの調査結果は、ChatGPT-4 が言語モデルのサイズが大きい場合にプラトーを表す可能性があることを示唆しています。
この研究は人間の研究の独特で複雑な性質を強調しており、科学論文における人間の独創性を AI がエミュレートすることは困難であることを示唆しています。
2023 年の時点で、AI はコンテンツ生成に変革をもたらしましたが、人文科学における独自の貢献には苦戦しています。
AI チャットボットが LLM を利用したソフトウェアに進化し続けるにつれて、この状況は変わる可能性があります。

要約(オリジナル)

Historical emphasis on writing mastery has shifted with advances in generative AI, especially in scientific writing. This study analysed six AI chatbots for scholarly writing in humanities and archaeology. Using methods that assessed factual correctness and scientific contribution, ChatGPT-4 showed the highest quantitative accuracy, closely followed by ChatGPT-3.5, Bing, and Bard. However, Claude 2 and Aria scored considerably lower. Qualitatively, all AIs exhibited proficiency in merging existing knowledge, but none produced original scientific content. Inter-estingly, our findings suggest ChatGPT-4 might represent a plateau in large language model size. This research emphasizes the unique, intricate nature of human research, suggesting that AI’s emulation of human originality in scientific writing is challenging. As of 2023, while AI has transformed content generation, it struggles with original contributions in humanities. This may change as AI chatbots continue to evolve into LLM-powered software.

arxiv情報

著者 Edisa Lozić,Benjamin Štular
発行日 2023-10-16 14:24:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, cs.AI, cs.CL, cs.CY, cs.ET, cs.HC, I.2.0 パーマリンク