On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective

要約

ChatGPT は、OpenAI によって最近リリースされたチャットボット サービスであり、ここ数か月でますます注目を集めています。
ChatGPT のさまざまな側面の評価が行われていますが、その堅牢性、つまり予期しない入力に対するパフォーマンスは、一般にはまだ不明です。
堅牢性は、特に安全性が重要なアプリケーションの場合、責任ある AI では特に重要です。
このホワイトペーパーでは、敵対的および配信外 (OOD) の観点から、ChatGPT の堅牢性の徹底的な評価を行います。
そのために、AdvGLUE および ANLI ベンチマークを使用して敵対的ロバスト性を評価し、Flipkart レビューおよび DDXPlus 医療診断データセットを OOD 評価に使用します。
ベースラインとしていくつかの一般的な基礎モデルを選択します。
結果は、ChatGPT がほとんどの敵対的および OOD 分類および翻訳タスクで一貫した利点を示していることを示しています。
ただし、絶対的なパフォーマンスは完璧とはほど遠いものであり、敵対的および OOD の堅牢性が依然として基盤モデルに対する重大な脅威であることを示唆しています。
さらに、ChatGPT は対話関連のテキストを理解する際に驚くべきパフォーマンスを示しており、決定的な回答ではなく、医療タスクに関する非公式の提案を提供する傾向があることがわかりました。
最後に、可能な研究の方向性についての詳細な議論を提示します。

要約(オリジナル)

ChatGPT is a recent chatbot service released by OpenAI and is receiving increasing attention over the past few months. While evaluations of various aspects of ChatGPT have been done, its robustness, i.e., the performance to unexpected inputs, is still unclear to the public. Robustness is of particular concern in responsible AI, especially for safety-critical applications. In this paper, we conduct a thorough evaluation of the robustness of ChatGPT from the adversarial and out-of-distribution (OOD) perspective. To do so, we employ the AdvGLUE and ANLI benchmarks to assess adversarial robustness and the Flipkart review and DDXPlus medical diagnosis datasets for OOD evaluation. We select several popular foundation models as baselines. Results show that ChatGPT shows consistent advantages on most adversarial and OOD classification and translation tasks. However, the absolute performance is far from perfection, which suggests that adversarial and OOD robustness remains a significant threat to foundation models. Moreover, ChatGPT shows astounding performance in understanding dialogue-related texts and we find that it tends to provide informal suggestions for medical tasks instead of definitive answers. Finally, we present in-depth discussions of possible research directions.

arxiv情報

著者 Jindong Wang,Xixu Hu,Wenxin Hou,Hao Chen,Runkai Zheng,Yidong Wang,Linyi Yang,Haojun Huang,Wei Ye,Xiubo Geng,Binxin Jiao,Yue Zhang,Xing Xie
発行日 2023-03-29 14:21:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク