DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

要約

Generative Pre-trained Transformer (GPT) モデルは、その機能において刺激的な進歩を示し、専門家だけでなく一般の人々の関心も集めています。
しかし、GPT モデルの信頼性に関する文献は依然として限られているものの、専門家らは、医療や金融など、間違いが大きな損失をもたらす可能性がある機密性の高いアプリケーションに、有能な GPT モデルを採用することを提案しています。
この目的を達成するために、この研究では、GPT-4 と GPT-3.5 に焦点を当て、毒性、固定概念バイアス、敵対的堅牢性、配布範囲外の堅牢性、配布上の堅牢性など、さまざまな観点を考慮した大規模言語モデルの包括的な信頼性評価を提案しています。
敵対的なデモンストレーション、プライバシー、機械倫理、公平性。
評価に基づいて、信頼性の脅威に対するこれまで未公開の脆弱性を発見しました。
たとえば、GPT モデルは簡単に誤解されて有害で偏った出力を生成し、トレーニング データと会話履歴の両方で個人情報が漏洩する可能性があることがわかりました。
また、標準ベンチマークでは GPT-4 の方が GPT-3.5 よりも信頼できることが多いですが、脱獄システムやユーザー プロンプトを考慮すると GPT-4 の方が脆弱であることがわかりました。これは、GPT-4 が (誤解を招く) 指示に正確に従うためである可能性があります。
私たちの研究は、GPT モデルの包括的な信頼性評価を示し、信頼性のギャップを明らかにします。
私たちのベンチマークは https://decodingtrust.github.io/ で公開されています。
私たちのデータセットは https://huggingface.co/datasets/AI-Secure/DecodingTrust でプレビューできます。
この研究の簡潔なバージョンは https://openreview.net/pdf?id=kaHpo8OZw2 にあります。

要約(オリジナル)

Generative Pre-trained Transformer (GPT) models have exhibited exciting progress in their capabilities, capturing the interest of practitioners and the public alike. Yet, while the literature on the trustworthiness of GPT models remains limited, practitioners have proposed employing capable GPT models for sensitive applications such as healthcare and finance — where mistakes can be costly. To this end, this work proposes a comprehensive trustworthiness evaluation for large language models with a focus on GPT-4 and GPT-3.5, considering diverse perspectives — including toxicity, stereotype bias, adversarial robustness, out-of-distribution robustness, robustness on adversarial demonstrations, privacy, machine ethics, and fairness. Based on our evaluations, we discover previously unpublished vulnerabilities to trustworthiness threats. For instance, we find that GPT models can be easily misled to generate toxic and biased outputs and leak private information in both training data and conversation history. We also find that although GPT-4 is usually more trustworthy than GPT-3.5 on standard benchmarks, GPT-4 is more vulnerable given jailbreaking system or user prompts, potentially because GPT-4 follows (misleading) instructions more precisely. Our work illustrates a comprehensive trustworthiness evaluation of GPT models and sheds light on the trustworthiness gaps. Our benchmark is publicly available at https://decodingtrust.github.io/; our dataset can be previewed at https://huggingface.co/datasets/AI-Secure/DecodingTrust; a concise version of this work is at https://openreview.net/pdf?id=kaHpo8OZw2.

arxiv情報

著者 Boxin Wang,Weixin Chen,Hengzhi Pei,Chulin Xie,Mintong Kang,Chenhui Zhang,Chejian Xu,Zidi Xiong,Ritik Dutta,Rylan Schaeffer,Sang T. Truong,Simran Arora,Mantas Mazeika,Dan Hendrycks,Zinan Lin,Yu Cheng,Sanmi Koyejo,Dawn Song,Bo Li
発行日 2024-01-05 07:01:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク