Is ChatGPT a General-Purpose Natural Language Processing Task Solver?

要約

大規模な言語モデル (LLM) は、スケールの進歩に拍車をかけられ、さまざまな自然言語処理 (NLP) タスクをゼロショットで実行する能力を実証しました。
最近、ChatGPT のデビューは、自然言語処理 (NLP) コミュニティから大きな注目を集めています。これは、人間の入力に対して高品質の応答を生成し、その後の会話に基づいて以前の間違いを自己修正できるという事実によるものです。
ただし、ChatGPT が多くの NLP タスクをゼロショットで実行できるジェネラリスト モデルとして機能できるかどうかはまだわかっていません。
この作業では、7 つの代表的なタスク カテゴリをカバーする 20 の一般的な NLP データセットで評価することにより、ChatGPT のゼロ ショット学習能力を経験的に分析します。
広範な実証研究により、現在のバージョンの ChatGPT の有効性と限界の両方を実証しています。
ChatGPT は、シーケンスのタグ付けなどの特定のタスクを解決する際に課題に直面しながらも、推論機能 (算術推論など) を優先する多くのタスクでうまく機能することがわかりました。
さらに、定性的なケーススタディを通じて詳細な分析を提供します。

要約(オリジナル)

Spurred by advancements in scale, large language models (LLMs) have demonstrated the ability to perform a variety of natural language processing (NLP) tasks zero-shot — i.e., without adaptation on downstream data. Recently, the debut of ChatGPT has drawn a great deal of attention from the natural language processing (NLP) community due to the fact that it can generate high-quality responses to human input and self-correct previous mistakes based on subsequent conversations. However, it is not yet known whether ChatGPT can serve as a generalist model that can perform many NLP tasks zero-shot. In this work, we empirically analyze the zero-shot learning ability of ChatGPT by evaluating it on 20 popular NLP datasets covering 7 representative task categories. With extensive empirical studies, we demonstrate both the effectiveness and limitations of the current version of ChatGPT. We find that ChatGPT performs well on many tasks favoring reasoning capabilities (e.g., arithmetic reasoning) while it still faces challenges when solving specific tasks such as sequence tagging. We additionally provide in-depth analysis through qualitative case studies.

arxiv情報

著者 Chengwei Qin,Aston Zhang,Zhuosheng Zhang,Jiaao Chen,Michihiro Yasunaga,Diyi Yang
発行日 2023-02-15 17:46:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク