DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

要約

Generative Pre-trained Transformer (GPT) モデルは、機能において刺激的な進歩を示し、専門家と一般の両方の関心を集めています。
しかし、GPT モデルの信頼性に関する文献は依然として限られているものの、専門家らは、間違いが発生するとコストが高くつく可能性がある医療や金融などの機密性の高いアプリケーションに、有能な GPT モデルを採用することを提案しています。
この目的を達成するために、この研究では、毒性、ステレオタイプバイアス、敵対的堅牢性、分布外堅牢性、敵対的堅牢性などの多様な観点を考慮して、GPT-4 および GPT-3.5 に焦点を当てた大規模言語モデルの包括的な信頼性評価を提案しています。
デモ、プライバシー、機械倫理、公平性。
評価に基づいて、信頼性の脅威に対するこれまで未公開の脆弱性を発見しました。
たとえば、GPT モデルは簡単に誤解されて有害で偏った出力を生成し、トレーニング データと会話履歴の両方で個人情報が漏洩する可能性があることがわかりました。
また、標準ベンチマークでは GPT-4 の方が GPT-3.5 よりも信頼性が高いことがわかりましたが、脱獄システムやユーザー プロンプトを考慮すると GPT-4 はより脆弱であることがわかりました。これは、GPT-4 が (誤解を招く) 指示により正確に従うことが原因である可能性があります。

私たちの研究は、GPT モデルの包括的な信頼性評価を示し、信頼性のギャップを明らかにします。
私たちのベンチマークは https://decodingtrust.github.io/ で公開されています。

要約(オリジナル)

Generative Pre-trained Transformer (GPT) models have exhibited exciting progress in capabilities, capturing the interest of practitioners and the public alike. Yet, while the literature on the trustworthiness of GPT models remains limited, practitioners have proposed employing capable GPT models for sensitive applications to healthcare and finance – where mistakes can be costly. To this end, this work proposes a comprehensive trustworthiness evaluation for large language models with a focus on GPT-4 and GPT-3.5, considering diverse perspectives – including toxicity, stereotype bias, adversarial robustness, out-of-distribution robustness, robustness on adversarial demonstrations, privacy, machine ethics, and fairness. Based on our evaluations, we discover previously unpublished vulnerabilities to trustworthiness threats. For instance, we find that GPT models can be easily misled to generate toxic and biased outputs and leak private information in both training data and conversation history. We also find that although GPT-4 is usually more trustworthy than GPT-3.5 on standard benchmarks, GPT-4 is more vulnerable given jailbreaking system or user prompts, potentially due to the reason that GPT-4 follows the (misleading) instructions more precisely. Our work illustrates a comprehensive trustworthiness evaluation of GPT models and sheds light on the trustworthiness gaps. Our benchmark is publicly available at https://decodingtrust.github.io/.

arxiv情報

著者 Boxin Wang,Weixin Chen,Hengzhi Pei,Chulin Xie,Mintong Kang,Chenhui Zhang,Chejian Xu,Zidi Xiong,Ritik Dutta,Rylan Schaeffer,Sang T. Truong,Simran Arora,Mantas Mazeika,Dan Hendrycks,Zinan Lin,Yu Cheng,Sanmi Koyejo,Dawn Song,Bo Li
発行日 2023-06-20 17:24:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク