要約
この論文では、ここで紹介した新しい毒性ラビットホールフレームワークを通じて、PaLM 2 の安全性フィードバックの堅牢性監査を実施します。
ステレオタイプから始めて、フレームワークは PaLM 2 にステレオタイプよりも有害なコンテンツを生成するように指示します。
その後の反復ごとに、PaLM 2 の安全ガードレールが安全違反をスローするまで、前の反復よりも多くの有害なコンテンツを生成するよう PaLM 2 に指示し続けます。
私たちの実験では、PaLM 2 の安全ガードレールが非常に危険であると評価しない、非常に不穏な反ユダヤ主義、イスラム嫌悪、人種差別主義、同性愛嫌悪、女性蔑視の生成されたコンテンツ (いくつか挙げると) が明らかになりました。
要約(オリジナル)
This paper conducts a robustness audit of the safety feedback of PaLM 2 through a novel toxicity rabbit hole framework introduced here. Starting with a stereotype, the framework instructs PaLM 2 to generate more toxic content than the stereotype. Every subsequent iteration it continues instructing PaLM 2 to generate more toxic content than the previous iteration until PaLM 2 safety guardrails throw a safety violation. Our experiments uncover highly disturbing antisemitic, Islamophobic, racist, homophobic, and misogynistic (to list a few) generated content that PaLM 2 safety guardrails do not evaluate as highly unsafe.
arxiv情報
著者 | Adel Khorramrouz,Sujan Dutta,Arka Dutta,Ashiqur R. KhudaBukhsh |
発行日 | 2023-09-18 16:56:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google