要約
最近、人の問い合わせに対して流暢で質の高い応答ができるChatGPTが注目されています。
いくつかの先行研究は、ChatGPT が既存のモデルと比較して顕著な生成能力を達成することを示しています。
しかし、ChatGPT の理解能力の定量的分析はあまり注目されていませんでした。
このレポートでは、最も人気のある GLUE ベンチマークで ChatGPT を評価し、微調整された 4 つの代表的な BERT スタイル モデルと比較することで、ChatGPT の理解能力を探ります。
1) ChatGPT は言い換えと類似タスクの処理が不十分です。
2) ChatGPT は、推論タスクですべての BERT モデルよりも大幅に優れています。
3) ChatGPT は、感情分析と質問応答タスクで BERT と比較して同等のパフォーマンスを達成します。
さらに、いくつかの高度なプロンプト戦略を組み合わせることで、ChatGPT の理解能力をさらに向上させることができることを示しています。
要約(オリジナル)
Recently, ChatGPT has attracted great attention, as it can generate fluent and high-quality responses to human inquiries. Several prior studies have shown that ChatGPT attains remarkable generation ability compared with existing models. However, the quantitative analysis of ChatGPT’s understanding ability has been given little attention. In this report, we explore the understanding ability of ChatGPT by evaluating it on the most popular GLUE benchmark, and comparing it with 4 representative fine-tuned BERT-style models. We find that: 1) ChatGPT falls short in handling paraphrase and similarity tasks; 2) ChatGPT outperforms all BERT models on inference tasks by a large margin; 3) ChatGPT achieves comparable performance compared with BERT on sentiment analysis and question-answering tasks. Additionally, by combining some advanced prompting strategies, we show that the understanding ability of ChatGPT can be further improved.
arxiv情報
| 著者 | Qihuang Zhong,Liang Ding,Juhua Liu,Bo Du,Dacheng Tao |
| 発行日 | 2023-03-02 14:33:12+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google