Sowing the Wind, Reaping the Whirlwind: The Impact of Editing Language Models

要約

急速に進歩する人工知能の分野では、レッド チーム化または脱獄の大規模言語モデル (LLM) の概念が重要な研究分野として浮上しています。
このアプローチは、これらのモデルの安全性と堅牢性を評価および強化するという点で特に重要です。
この論文では、モデル編集によるそのような変更の複雑な結果を調査し、モデルの精度の向上とその倫理的完全性の維持との間の複雑な関係を明らかにします。
私たちの詳細な分析により、驚くべき矛盾が明らかになりました。正確な情報を注入することはモデルの信頼性にとって重要ですが、逆説的にモデルの基礎的なフレームワークを不安定にし、予測不可能で潜在的に危険な動作を引き起こす可能性があります。
さらに、同じドメイン内およびトピック間ドメインの両方でこの危険な動作を調査するためのベンチマーク データセット NicheHazardQA を提案します。
私たちの研究のこの側面は、編集がモデルの安全性指標とガードレールにどのような影響を与えるかを明らかにします。
私たちの調査結果は、モデル編集が、対象を絞った編集を系統的に適用し、その結果得られるモデルの動作を評価することにより、局所的なレッドチームに対する費用対効果の高いツールとして機能することを示しています。

要約(オリジナル)

In the rapidly advancing field of artificial intelligence, the concept of Red-Teaming or Jailbreaking large language models (LLMs) has emerged as a crucial area of study. This approach is especially significant in terms of assessing and enhancing the safety and robustness of these models. This paper investigates the intricate consequences of such modifications through model editing, uncovering a complex relationship between enhancing model accuracy and preserving its ethical integrity. Our in-depth analysis reveals a striking paradox: while injecting accurate information is crucial for model reliability, it can paradoxically destabilize the model’s foundational framework, resulting in unpredictable and potentially unsafe behaviors. Additionally, we propose a benchmark dataset NicheHazardQA to investigate this unsafe behavior both within the same and cross topical domain. This aspect of our research sheds light on how the edits, impact the model’s safety metrics and guardrails. Our findings show that model editing serves as a cost-effective tool for topical red-teaming by methodically applying targeted edits and evaluating the resultant model behavior

arxiv情報

著者 Rima Hazra,Sayan Layek,Somnath Banerjee,Soujanya Poria
発行日 2024-01-19 11:48:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク