要約
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースし、人工知能における人間とモデルの相互作用へのアプローチに革命を起こしました。ChatGPTの評価に関するいくつかの出版物は、よく知られた自然言語処理(NLP)タスクでその有効性をテストしています。しかし、既存の研究は、ほとんどが非自動化で、非常に限られたスケールでテストされています。この研究では、25の多様な分析的NLPタスクでChatGPTの能力を検証しました。そのほとんどは、感情分析、感情認識、不快感、スタンス検出など、人間にとってさえ主観的なタスクです。一方、他のタスクでは、語義曖昧性解消、言語的受容性、質問応答など、より客観的な推論が必要とされます。また、GPT-4モデルを5つのNLPタスクのサブセットで評価しました。ChatGPTとGPT-4のプロンプティングプロセスを自動化し、49k以上の応答を分析しました。その結果、GPT-4モデルの品質低下は、0ショットと数ショットの評価で約25%であることが分かりました。GPT-4モデルでは、セマンティックタスクの損失はChatGPTよりも大幅に低くなっています。タスクが難しい(SOTA性能が低い)ほど、ChatGPTの損失が大きくなることを示しました。特に、感情認識のような実用的なNLPの問題に言及しています。また、Random Contextual Few-Shot Personalizationによって、選択した主観的なタスクに対するChatGPTの応答をパーソナライズする能力を検証したところ、著しく優れたユーザーベースの予測が得られました。さらに定性的な分析を行ったところ、OpenAIが人間のトレーナーに課しているルールに起因する可能性が高い、ChatGPTのバイアスがあることがわかりました。この結果は、最近の予測型NLPモデルの高い品質がツールの社会的有用性を示すことができるか、またそのようなシステムの学習と検証の手順はどのように確立されるべきかについて、根本的な議論の基礎を提供するものである。
要約(オリジナル)
OpenAI has released the Chat Generative Pre-trained Transformer (ChatGPT) and revolutionized the approach in artificial intelligence to human-model interaction. Several publications on ChatGPT evaluation test its effectiveness on well-known natural language processing (NLP) tasks. However, the existing studies are mostly non-automated and tested on a very limited scale. In this work, we examined ChatGPT’s capabilities on 25 diverse analytical NLP tasks, most of them subjective even to humans, such as sentiment analysis, emotion recognition, offensiveness, and stance detection. In contrast, the other tasks require more objective reasoning like word sense disambiguation, linguistic acceptability, and question answering. We also evaluated GPT-4 model on five selected subsets of NLP tasks. We automated ChatGPT and GPT-4 prompting process and analyzed more than 49k responses. Our comparison of its results with available State-of-the-Art (SOTA) solutions showed that the average loss in quality of the ChatGPT model was about 25% for zero-shot and few-shot evaluation. For GPT-4 model, a loss for semantic tasks is significantly lower than for ChatGPT. We showed that the more difficult the task (lower SOTA performance), the higher the ChatGPT loss. It especially refers to pragmatic NLP problems like emotion recognition. We also tested the ability to personalize ChatGPT responses for selected subjective tasks via Random Contextual Few-Shot Personalization, and we obtained significantly better user-based predictions. Additional qualitative analysis revealed a ChatGPT bias, most likely due to the rules imposed on human trainers by OpenAI. Our results provide the basis for a fundamental discussion of whether the high quality of recent predictive NLP models can indicate a tool’s usefulness to society and how the learning and validation procedures for such systems should be established.
arxiv情報
著者 | Jan Kocoń,Igor Cichecki,Oliwier Kaszyca,Mateusz Kochanek,Dominika Szydło,Joanna Baran,Julita Bielaniewicz,Marcin Gruza,Arkadiusz Janz,Kamil Kanclerz,Anna Kocoń,Bartłomiej Koptyra,Wiktoria Mieleszczenko-Kowszewicz,Piotr Miłkowski,Marcin Oleksy,Maciej Piasecki,Łukasz Radliński,Konrad Wojtasik,Stanisław Woźniak,Przemysław Kazienko |
発行日 | 2023-06-02 12:20:04+00:00 |
arxivサイト | arxiv_id(pdf) |