要約
OpenAI は Chat Generative Pre-trained Transformer (ChatGPT) をリリースし、人間とモデルの相互作用に対する人工知能のアプローチに革命をもたらしました。
チャットボットとの最初の接触は、さまざまな分野で詳細かつ正確な回答を提供する能力を明らかにします.
ChatGPT 評価に関するいくつかの出版物があり、よく知られている自然言語処理 (NLP) タスクでの有効性をテストしています。
ただし、既存の研究はほとんど自動化されておらず、非常に限られた規模でテストされています。
この作業では、25 の多様な分析 NLP タスクに関する ChatGPT の機能を調べました。それらのほとんどは、感情分析、感情認識、攻撃性とスタンスの検出、自然言語の推論、単語の意味の曖昧さの解消、言語の受容性、質問への回答など、人間にとっても主観的です。
ChatGPT のクエリ プロセスを自動化し、38,000 を超える応答を分析しました。
その結果を利用可能な最先端 (SOTA) ソリューションと比較したところ、ChatGPT モデルの品質の平均損失は、ゼロショット評価と少数ショット評価で約 25% であることがわかりました。
タスクが難しいほど (SOTA パフォーマンスが低い)、ChatGPT の損失が高くなることがわかりました。
特に、感情認識などの実用的な NLP 問題を指します。
また、Random Contextual Few-Shot Personalization を介して、選択した主観的タスクの ChatGPT 応答をパーソナライズする機能もテストし、ユーザーベースの予測が大幅に向上しました。
追加の定性分析により、OpenAI によって人間のトレーナーに課せられたルールが原因である可能性が最も高い、ChatGPT バイアスが明らかになりました。
私たちの結果は、最近の予測NLPモデルの高品質がツールの社会への有用性を示すことができるかどうか、およびそのようなシステムの学習および検証手順をどのように確立する必要があるかについての基本的な議論の基礎を提供します.
要約(オリジナル)
OpenAI has released the Chat Generative Pre-trained Transformer (ChatGPT) and revolutionized the approach in artificial intelligence to human-model interaction. The first contact with the chatbot reveals its ability to provide detailed and precise answers in various areas. There are several publications on ChatGPT evaluation, testing its effectiveness on well-known natural language processing (NLP) tasks. However, the existing studies are mostly non-automated and tested on a very limited scale. In this work, we examined ChatGPT’s capabilities on 25 diverse analytical NLP tasks, most of them subjective even to humans, such as sentiment analysis, emotion recognition, offensiveness and stance detection, natural language inference, word sense disambiguation, linguistic acceptability and question answering. We automated ChatGPT’s querying process and analyzed more than 38k responses. Our comparison of its results with available State-of-the-Art (SOTA) solutions showed that the average loss in quality of the ChatGPT model was about 25% for zero-shot and few-shot evaluation. We showed that the more difficult the task (lower SOTA performance), the higher the ChatGPT loss. It especially refers to pragmatic NLP problems like emotion recognition. We also tested the ability of personalizing ChatGPT responses for selected subjective tasks via Random Contextual Few-Shot Personalization, and we obtained significantly better user-based predictions. Additional qualitative analysis revealed a ChatGPT bias, most likely due to the rules imposed on human trainers by OpenAI. Our results provide the basis for a fundamental discussion of whether the high quality of recent predictive NLP models can indicate a tool’s usefulness to society and how the learning and validation procedures for such systems should be established.
arxiv情報
著者 | Jan Kocoń,Igor Cichecki,Oliwier Kaszyca,Mateusz Kochanek,Dominika Szydło,Joanna Baran,Julita Bielaniewicz,Marcin Gruza,Arkadiusz Janz,Kamil Kanclerz,Anna Kocoń,Bartłomiej Koptyra,Wiktoria Mieleszczenko-Kowszewicz,Piotr Miłkowski,Marcin Oleksy,Maciej Piasecki,Łukasz Radliński,Konrad Wojtasik,Stanisław Woźniak,Przemysław Kazienko |
発行日 | 2023-02-21 15:20:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google