要約
大規模な言語モデル(LLM)の最近の進歩により、人間レベルの説得能力にアプローチすることができました。
しかし、このような可能性は、LLM主導の説得の安全リスク、特に操作、欺ception、脆弱性の搾取、および他の多くの有害な戦術による非倫理的な影響の可能性についての懸念も提起します。
この作業では、2つの重要な側面を通じてLLM説得の安全性の体系的な調査を提示します。(1)LLMSが非倫理的な説得タスクを適切に拒否し、実行中の非倫理的戦略を避け、最初の説得目標が倫理的に中立に見える場合を含む、(2)人格の特徴や外部圧力に影響を与える要因に影響を与えるかなど。
この目的のために、3つの段階、すなわち説得シーンの作成、説得力のある会話シミュレーション、説得の安全性評価で構成される説得の安全性の評価のための最初の包括的なフレームワークであるPersuSafetyを紹介します。
Persusafetyは、6つの多様な非倫理的説得のトピックと15の一般的な非倫理的戦略をカバーしています。
広く使用されている8つのLLMにわたる広範な実験を通じて、有害な説得タスクの特定に失敗したり、さまざまな非倫理的説得戦略を活用したりするなど、ほとんどのLLMで重大な安全性の懸念が観察されます。
私たちの研究では、説得などのプログレッシブおよび目標主導の会話の安全性の整合を改善するためにより多くの注意が必要です。
要約(オリジナル)
Recent advancements in Large Language Models (LLMs) have enabled them to approach human-level persuasion capabilities. However, such potential also raises concerns about the safety risks of LLM-driven persuasion, particularly their potential for unethical influence through manipulation, deception, exploitation of vulnerabilities, and many other harmful tactics. In this work, we present a systematic investigation of LLM persuasion safety through two critical aspects: (1) whether LLMs appropriately reject unethical persuasion tasks and avoid unethical strategies during execution, including cases where the initial persuasion goal appears ethically neutral, and (2) how influencing factors like personality traits and external pressures affect their behavior. To this end, we introduce PersuSafety, the first comprehensive framework for the assessment of persuasion safety which consists of three stages, i.e., persuasion scene creation, persuasive conversation simulation, and persuasion safety assessment. PersuSafety covers 6 diverse unethical persuasion topics and 15 common unethical strategies. Through extensive experiments across 8 widely used LLMs, we observe significant safety concerns in most LLMs, including failing to identify harmful persuasion tasks and leveraging various unethical persuasion strategies. Our study calls for more attention to improve safety alignment in progressive and goal-driven conversations such as persuasion.
arxiv情報
著者 | Minqian Liu,Zhiyang Xu,Xinyi Zhang,Heajun An,Sarvech Qadir,Qi Zhang,Pamela J. Wisniewski,Jin-Hee Cho,Sang Won Lee,Ruoxi Jia,Lifu Huang |
発行日 | 2025-04-14 17:20:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google