Denevil: Towards Deciphering and Navigating the Ethical Values of Large Language Models via Instruction Learning

要約

大規模言語モデル (LLM) は前例のない画期的な進歩を遂げていますが、日常生活への統合が進むにつれて、生成された非倫理的なコンテンツにより社会的リスクが高まる可能性があります。
偏見などの特定の問題については広範な研究が行われているにもかかわらず、LLM の本質的な価値は、道徳哲学の観点からはほとんど解明されていないままです。
この研究では、道徳基盤理論を利用して倫理的価値を掘り下げます。
信頼性の低い従来の差別的評価を超えて、LLMの価値の脆弱性を動的に悪用し、生成的な方法で倫理違反を引き出し、根底にある価値の傾向を明らかにするように調整された新しいプロンプト生成アルゴリズムであるDeNEVILを提案します。
このような基礎に基づいて、500 以上の価値原則をカバーする 2,397 のプロンプトで構成される高品質のデータセットである MoralPrompt を構築し、LLM のスペクトル全体にわたる本質的な価値のベンチマークを行います。
私たちは、ほとんどのモデルが本質的にずれており、さらなる倫理的価値の調整が必要であることを発見しました。
これに応えて、当社は、適切な値の指示を生成する方法を学習することで、LLM 出力の値コンプライアンスを大幅に強化するコンテキスト内調整手法である VILMO を開発し、既存の競合他社を上回ります。
私たちの手法はブラックボックスおよびオープンソースのモデルに適しており、LLM の倫理的価値を研究する際の有望な最初のステップを提供します。

要約(オリジナル)

Large Language Models (LLMs) have made unprecedented breakthroughs, yet their increasing integration into everyday life might raise societal risks due to generated unethical content. Despite extensive study on specific issues like bias, the intrinsic values of LLMs remain largely unexplored from a moral philosophy perspective. This work delves into ethical values utilizing Moral Foundation Theory. Moving beyond conventional discriminative evaluations with poor reliability, we propose DeNEVIL, a novel prompt generation algorithm tailored to dynamically exploit LLMs’ value vulnerabilities and elicit the violation of ethics in a generative manner, revealing their underlying value inclinations. On such a basis, we construct MoralPrompt, a high-quality dataset comprising 2,397 prompts covering 500+ value principles, and then benchmark the intrinsic values across a spectrum of LLMs. We discovered that most models are essentially misaligned, necessitating further ethical value alignment. In response, we develop VILMO, an in-context alignment method that substantially enhances the value compliance of LLM outputs by learning to generate appropriate value instructions, outperforming existing competitors. Our methods are suitable for black-box and open-source models, offering a promising initial step in studying the ethical values of LLMs.

arxiv情報

著者 Shitong Duan,Xiaoyuan Yi,Peng Zhang,Tun Lu,Xing Xie,Ning Gu
発行日 2023-10-30 02:30:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク