GPTEval: A Survey on Assessments of ChatGPT and GPT-4

要約

ChatGPT の出現により、社会および経済システムを混乱させる可能性について、マスコミで多くの憶測が生まれました。
その驚くべき言語能力は、さまざまな分野でのそのパフォーマンスについて学者の間で強い好奇心を引き起こしました。
さまざまなタスクや分野における ChatGPT と GPT-4 の能力を評価する多くの研究が行われています。
しかし、集合的な評価結果を要約した包括的なレビューが不足しています。
この調査の目的は、ChatGPT と GPT-4 の言語能力と推論能力、科学的知識、倫理的配慮に焦点を当てて、これまでの評価を徹底的に分析することです。
さらに、既存の評価方法の調査が行われ、大規模な言語モデルを評価する際の将来の研究にいくつかの推奨事項が提供されます。

要約(オリジナル)

The emergence of ChatGPT has generated much speculation in the press about its potential to disrupt social and economic systems. Its astonishing language ability has aroused strong curiosity among scholars about its performance in different domains. There have been many studies evaluating the ability of ChatGPT and GPT-4 in different tasks and disciplines. However, a comprehensive review summarizing the collective assessment findings is lacking. The objective of this survey is to thoroughly analyze prior assessments of ChatGPT and GPT-4, focusing on its language and reasoning abilities, scientific knowledge, and ethical considerations. Furthermore, an examination of the existing evaluation methods is conducted, offering several recommendations for future research in evaluating large language models.

arxiv情報

著者 Rui Mao,Guanyi Chen,Xulang Zhang,Frank Guerin,Erik Cambria
発行日 2023-08-24 01:17:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク