RogueGPT: dis-ethical tuning transforms ChatGPT4 into a Rogue AI in 158 Words

要約

生成型人工知能の倫理的影響と悪用の可能性は、ますます憂慮すべき話題となっています。
このペーパーでは、ChatGPT のデフォルトの倫理的ガードレールを、最新のカスタマイズ機能を使用して、シンプルなプロンプトと微調整によってどのように簡単に回避でき、一般の人々が簡単にアクセスできるかを検討します。
「RogueGPT」と呼ばれるこの悪意を持って変更されたバージョンの ChatGPT は、脱獄プロンプトによって引き起こされるものを超えた、憂慮すべき動作で反応しました。
私たちは RogueGPT 応答の実証的研究を実施し、何が使用を禁止されるべきかに関する質問に答える際の柔軟性を評価します。
私たちの調査結果は、違法薬物の製造、拷問方法、テロリズムなどのテーマに関するモデルの知識について重大な懸念を引き起こしています。
ChatGPT の迷走のしやすさは、そのグローバルなアクセスのしやすさと相まって、基礎モデルのトレーニングと倫理的保護措置の実装に使用されるデータ品質に関する深刻な問題を浮き彫りにしています。
したがって、ユーザー主導の変更の責任と危険性、およびこれらの変更が AI プログラマーによって実装される保護および倫理モジュールの設計に与える可能性のある広範な影響を強調します。

要約(オリジナル)

The ethical implications and potentials for misuse of Generative Artificial Intelligence are increasingly worrying topics. This paper explores how easily the default ethical guardrails of ChatGPT, using its latest customization features, can be bypassed by simple prompts and fine-tuning, that can be effortlessly accessed by the broad public. This malevolently altered version of ChatGPT, nicknamed ‘RogueGPT’, responded with worrying behaviours, beyond those triggered by jailbreak prompts. We conduct an empirical study of RogueGPT responses, assessing its flexibility in answering questions pertaining to what should be disallowed usage. Our findings raise significant concerns about the model’s knowledge about topics like illegal drug production, torture methods and terrorism. The ease of driving ChatGPT astray, coupled with its global accessibility, highlights severe issues regarding the data quality used for training the foundational model and the implementation of ethical safeguards. We thus underline the responsibilities and dangers of user-driven modifications, and the broader effects that these may have on the design of safeguarding and ethical modules implemented by AI programmers.

arxiv情報

著者 Alessio Buscemi,Daniele Proverbio
発行日 2024-07-23 15:13:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク