Red teaming ChatGPT via Jailbreaking: Bias, Robustness, Reliability and Toxicity

要約

自然言語処理 (NLP) における最近の進歩により、オープンエンドな方法で一貫したテキストの合成と理解が可能になり、理論的なアルゴリズムが実際のアプリケーションに変換されます。
大規模言語モデル (LLM) は、レポート要約ソフトウェアやコピーライターなどのビジネスに大きな影響を与えています。
しかし、観察によると、LLM は社会的偏見や毒性を示し、無責任から生じる結果という倫理的および社会的危険を引き起こす可能性があります。
したがって、責任ある LLM のための大規模なベンチマークを開発する必要があります。
いくつかの実証的調査により、先進的な LLM にはいくつかの倫理的問題が存在することが明らかになりましたが、現在の LLM 使用のリスクと有害な行為に関する体系的な調査やユーザー研究はほとんどありません。
責任を持って倫理的な LLM を構築するための将来の取り組みをさらに教育するために、OpenAI の ChatGPT\脚注{この論文では、ChatGPT は 12 月 15 日にリリースされたバージョンを指します。} で「レッド チーミング」と呼ばれる定性調査手法を実行し、実践的な問題をよりよく理解します。
最近の LLM における倫理的危険性の特徴。
ChatGPT を 1) \textit{バイアス} 2) \textit{信頼性} 3) \textit{堅牢性} 4) \textit{毒性} の 4 つの観点から総合的に分析します。
私たちが述べた観点に従って、複数のサンプル データセットで ChatGPT を経験的にベンチマークします。
私たちは、かなりの数の倫理的リスクが既存のベンチマークでは対処できないことを発見したため、追加のケーススタディを通じてそれらを説明します。
さらに、AI の倫理と ChatGPT の有害な行為に関する調査結果の意味、および責任ある LLM の将来の問題と実際的な設計の考慮事項を検討します。
私たちは、私たちの調査結果が、LLM アプリケーションにおける機械によってもたらされる倫理的危険性を判断し、軽減するための今後の取り組みに光を与える可能性があると信じています。

要約(オリジナル)

Recent breakthroughs in natural language processing (NLP) have permitted the synthesis and comprehension of coherent text in an open-ended way, therefore translating the theoretical algorithms into practical applications. The large language models (LLMs) have significantly impacted businesses such as report summarization software and copywriters. Observations indicate, however, that LLMs may exhibit social prejudice and toxicity, posing ethical and societal dangers of consequences resulting from irresponsibility. Large-scale benchmarks for accountable LLMs should consequently be developed. Although several empirical investigations reveal the existence of a few ethical difficulties in advanced LLMs, there is little systematic examination and user study of the risks and harmful behaviors of current LLM usage. To further educate future efforts on constructing ethical LLMs responsibly, we perform a qualitative research method called “red teaming” on OpenAI’s ChatGPT\footnote{In this paper, ChatGPT refers to the version released on Dec 15th.} to better understand the practical features of ethical dangers in recent LLMs. We analyze ChatGPT comprehensively from four perspectives: 1) \textit{Bias} 2) \textit{Reliability} 3) \textit{Robustness} 4) \textit{Toxicity}. In accordance with our stated viewpoints, we empirically benchmark ChatGPT on multiple sample datasets. We find that a significant number of ethical risks cannot be addressed by existing benchmarks, and hence illustrate them via additional case studies. In addition, we examine the implications of our findings on AI ethics and harmal behaviors of ChatGPT, as well as future problems and practical design considerations for responsible LLMs. We believe that our findings may give light on future efforts to determine and mitigate the ethical hazards posed by machines in LLM applications.

arxiv情報

著者 Terry Yue Zhuo,Yujin Huang,Chunyang Chen,Zhenchang Xing
発行日 2023-05-29 17:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク