On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective

要約

ChatGPT は OpenAI によって最近リリースされたチャットボット サービスで、ここ数か月で注目が高まっています。
ChatGPT のさまざまな側面の評価が行われていますが、その堅牢性、つまり予期せぬ入力に対するパフォーマンスはまだ一般には明らかになっていません。
責任ある AI、特に安全性が重要なアプリケーションでは、堅牢性が特に重要です。
このペーパーでは、ChatGPT の堅牢性を敵対的および配布外 (OOD) の観点から徹底的に評価します。
そのために、Adversarial の堅牢性を評価するために AdvGLUE および ANLI ベンチマークを使用し、OOD 評価には Flipkart レビューと DDXPlus 医療診断データセットを使用します。
いくつかの人気のある基礎モデルをベースラインとして選択します。
結果は、ChatGPT がほとんどの敵対的および OOD 分類および変換タスクで一貫した利点を示していることを示しています。
ただし、絶対的なパフォーマンスは完璧には程遠く、敵対的および OOD の堅牢性が依然として基礎モデルに対する重大な脅威であることを示唆しています。
さらに、ChatGPT は対話関連のテキストの理解において驚くべきパフォーマンスを示し、最終的な答えではなく、医療タスクに対して非公式な提案を提供する傾向があることがわかりました。
最後に、考えられる研究の方向性についての詳細な議論を示します。

要約(オリジナル)

ChatGPT is a recent chatbot service released by OpenAI and is receiving increasing attention over the past few months. While evaluations of various aspects of ChatGPT have been done, its robustness, i.e., the performance to unexpected inputs, is still unclear to the public. Robustness is of particular concern in responsible AI, especially for safety-critical applications. In this paper, we conduct a thorough evaluation of the robustness of ChatGPT from the adversarial and out-of-distribution (OOD) perspective. To do so, we employ the AdvGLUE and ANLI benchmarks to assess adversarial robustness and the Flipkart review and DDXPlus medical diagnosis datasets for OOD evaluation. We select several popular foundation models as baselines. Results show that ChatGPT shows consistent advantages on most adversarial and OOD classification and translation tasks. However, the absolute performance is far from perfection, which suggests that adversarial and OOD robustness remains a significant threat to foundation models. Moreover, ChatGPT shows astounding performance in understanding dialogue-related texts and we find that it tends to provide informal suggestions for medical tasks instead of definitive answers. Finally, we present in-depth discussions of possible research directions.

arxiv情報

著者 Jindong Wang,Xixu Hu,Wenxin Hou,Hao Chen,Runkai Zheng,Yidong Wang,Linyi Yang,Haojun Huang,Wei Ye,Xiubo Geng,Binxin Jiao,Yue Zhang,Xing Xie
発行日 2023-08-29 05:34:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク