How Toxic Can You Get? Search-based Toxicity Testing for Large Language Models

要約

言語は、ステレオタイプや差別を蔓延させる根深い手段である。大規模な言語モデル(LLM)は、今や私たちの日常生活に浸透している技術だが、有害な反応を生み出しやすい場合、広範囲に害を及ぼす可能性がある。この問題に対処する標準的な方法は、LLMを整列させることであるが、これは決定的な解決策を構成することなく問題を減衰させる。従って、アライメントを行った後でもLLMをテストすることは、倫理的基準に対する残余の逸脱を検出するために極めて重要である。我々は、LLMの毒性への傾きに関する自動テストフレームワークであるEvoToxを提示し、アライメントが存在する場合でも、LLMがどの程度毒性反応に向かう可能性があるかを定量的に評価する方法を提供する。このフレームワークは、2つのLLM、被試験システム(SUT)とSUTの応答をより高い毒性に誘導するプロンプトジェネレータの間の相互作用を利用する反復進化戦略を採用している。毒性レベルは、既存の毒性分類器に基づく自動オラクルによって評価される。複雑さを増す(70億~130億パラメータ)4つの最先端のLLMを評価対象として、定量的および定性的な実証評価を実施する。定量的評価では、ランダム検索、毒性プロンプトのキュレーションデータセット、敵対的攻撃に基づく既存のベースライン手法に対するEvoToxの4つの代替バージョンの費用対効果を評価する。定性的評価では、生成されたプロンプトの流暢さと、テストセッション中に収集された応答の有毒性を人間の評価者が評価した。その結果、検出された毒性レベルの有効性は、選択されたベースライン手法よりも有意に高いことが示された(ランダム検索に対する効果量は最大1.0、敵対的攻撃に対する効果量は最大0.99)。さらに、EvoToxのコスト・オーバーヘッドは限定的である(平均22%から35%)。

要約(オリジナル)

Language is a deep-rooted means of perpetration of stereotypes and discrimination. Large Language Models (LLMs), now a pervasive technology in our everyday lives, can cause extensive harm when prone to generating toxic responses. The standard way to address this issue is to align the LLM, which, however, dampens the issue without constituting a definitive solution. Therefore, testing LLM even after alignment efforts remains crucial for detecting any residual deviations with respect to ethical standards. We present EvoTox, an automated testing framework for LLMs’ inclination to toxicity, providing a way to quantitatively assess how much LLMs can be pushed towards toxic responses even in the presence of alignment. The framework adopts an iterative evolution strategy that exploits the interplay between two LLMs, the System Under Test (SUT) and the Prompt Generator steering SUT responses toward higher toxicity. The toxicity level is assessed by an automated oracle based on an existing toxicity classifier. We conduct a quantitative and qualitative empirical evaluation using four state-of-the-art LLMs as evaluation subjects having increasing complexity (7-13 billion parameters). Our quantitative evaluation assesses the cost-effectiveness of four alternative versions of EvoTox against existing baseline methods, based on random search, curated datasets of toxic prompts, and adversarial attacks. Our qualitative assessment engages human evaluators to rate the fluency of the generated prompts and the perceived toxicity of the responses collected during the testing sessions. Results indicate that the effectiveness, in terms of detected toxicity level, is significantly higher than the selected baseline methods (effect size up to 1.0 against random search and up to 0.99 against adversarial attacks). Furthermore, EvoTox yields a limited cost overhead (from 22% to 35% on average).

arxiv情報

著者 Simone Corbo,Luca Bancale,Valeria De Gennaro,Livia Lestingi,Vincenzo Scotti,Matteo Camilli
発行日 2025-01-03 10:08:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.SE パーマリンク