ChatGPT v Bard v Bing v Claude 2 v Aria v human-expert. How good are AI chatbots at scientific writing? (ver. 23Q3)

要約

歴史的に、熟練した文章を書くことは人類の進歩に不可欠であると考えられており、創造的な表現は人類の達成の特徴の1つと見なされていました。
しかし、生成型 AI の最近の進歩は、科学論文を含め、この物語に転換点をもたらしています。
この記事では、人文科学と考古学の学術論文における 6 つの AI チャットボットの機能と限界について包括的な分析を提供します。
この方法論は、AI が生成したコンテンツを人間の専門家が定量的精度と定性的精度でタグ付けすることに基づいていました。
定量的精度は事実の正しさを評価し、定性的精度は科学的貢献を評価します。
AI チャットボット、特に ChatGPT-4 は、既存の知識を再結合する能力を実証しましたが、オリジナルの科学コンテンツを生成することには失敗しました。
余談ですが、私たちの結果は、ChatGPT-4 では LLM のサイズが頭打ちになっていることも示唆しています。
さらに、この論文は人間の研究の複雑かつ再帰的な性質を強調しています。
生のデータを洗練された知識に変換するこのプロセスは計算的には還元不可能であり、これは科学論文で人間の独創性をエミュレートする際に AI チャットボットが直面する課題を浮き彫りにしています。
結論として、大規模な言語モデルはコンテンツ生成に革命をもたらしましたが、人文科学において独自の科学的貢献を生み出す能力は依然として限られています。
現在の LLM ベースの AI チャットボットが LLM を利用したソフトウェアに進化することで、近い将来、この状況が変わると予想されます。

要約(オリジナル)

Historically, proficient writing was deemed essential for human advancement, with creative expression viewed as one of the hallmarks of human achievement. However, recent advances in generative AI have marked an inflection point in this narrative, including for scientific writing. This article provides a comprehensive analysis of the capabilities and limitations of six AI chatbots in scholarly writing in the humanities and archaeology. The methodology was based on tagging AI generated content for quantitative accuracy and qualitative precision by human experts. Quantitative accuracy assessed the factual correctness, while qualitative precision gauged the scientific contribution. While the AI chatbots, especially ChatGPT-4, demonstrated proficiency in recombining existing knowledge, they failed in generating original scientific content. As a side note, our results also suggest that with ChatGPT-4 the size of the LLMs has plateaued. Furthermore, the paper underscores the intricate and recursive nature of human research. This process of transforming raw data into refined knowledge is computationally irreducible, which highlights the challenges AI chatbots face in emulating human originality in scientific writing. In conclusion, while large language models have revolutionised content generation, their ability to produce original scientific contributions in the humanities remains limited. We expect that this will change in the near future with the evolution of current LLM-based AI chatbots towards LLM-powered software.

arxiv情報

著者 Edisa Lozić,Benjamin Štular
発行日 2023-09-22 08:47:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, cs.AI, cs.CL, cs.CY, cs.ET, cs.HC, I.2.0 パーマリンク