要約
大規模な言語モデル(LLM)は、洗練された人間のようなコンテンツを理解し、生成する能力により、最近注目を集めています。
ただし、有害で安全でない応答を提供する可能性があるため、安全性を確保することが最重要です。
既存のLLMテストフレームワークは、さまざまな安全関連の懸念(薬物、テロリズム、動物虐待など)に対処しますが、不均衡で時代遅れのデータセットのために課題に直面することがよくあります。
この論文では、Astralを提示します。Astralは、LLMSの安全性をテストするためのテストケース(つまり、プロンプト)の生成と実行を自動化するツールです。
まず、新しいブラックボックスカバレッジ基準を導入して、多様な安全カテゴリのセットと言語のライティング特性(つまり、異なるスタイルと説得力のあるライティングテクニック)にわたってバランスの取れた多様な安全でないテスト入力を生成します。
第二に、検索拡張生成(RAG)を活用するLLMベースのアプローチ、少数のショットプロンプト戦略、およびWebブラウジングが最新のテスト入力を生成することを提案します。
最後に、現在のLLMテスト自動化技術と同様に、LLMSをテストのオラクルとして活用して、安全なテスト出力と安全でないテスト出力を区別し、完全に自動化されたテストアプローチを可能にします。
よく知られているLLMSについて広範な評価を実施し、次の重要な調査結果を明らかにします。i)GPT3.5は、テストのオラクルとして機能するときに他のLLMを上回り、安全でない応答を正確に検出し、さらに最近のLLMSを上回ることさえあります(例:GPT-4)
、および安全でないLLM出力を検出するように特異的に調整されたLLMS(例:llamaguard);
ii)結果は、現在使用されている静的データセットと比較して、同じ数のテスト入力で、私たちのアプローチがほぼ2倍の安全でないLLM動作を明らかにできることを確認しています。
iii)Webブラウジングと組み合わせたブラックボックスカバレッジ基準は、最新の安全でないテスト入力を生成するためにLLMを効果的に導き、安全でないLLM動作の数を大幅に増やすことができます。
要約(オリジナル)
Large Language Models (LLMs) have recently gained attention due to their ability to understand and generate sophisticated human-like content. However, ensuring their safety is paramount as they might provide harmful and unsafe responses. Existing LLM testing frameworks address various safety-related concerns (e.g., drugs, terrorism, animal abuse) but often face challenges due to unbalanced and obsolete datasets. In this paper, we present ASTRAL, a tool that automates the generation and execution of test cases (i.e., prompts) for testing the safety of LLMs. First, we introduce a novel black-box coverage criterion to generate balanced and diverse unsafe test inputs across a diverse set of safety categories as well as linguistic writing characteristics (i.e., different style and persuasive writing techniques). Second, we propose an LLM-based approach that leverages Retrieval Augmented Generation (RAG), few-shot prompting strategies and web browsing to generate up-to-date test inputs. Lastly, similar to current LLM test automation techniques, we leverage LLMs as test oracles to distinguish between safe and unsafe test outputs, allowing a fully automated testing approach. We conduct an extensive evaluation on well-known LLMs, revealing the following key findings: i) GPT3.5 outperforms other LLMs when acting as the test oracle, accurately detecting unsafe responses, and even surpassing more recent LLMs (e.g., GPT-4), as well as LLMs that are specifically tailored to detect unsafe LLM outputs (e.g., LlamaGuard); ii) the results confirm that our approach can uncover nearly twice as many unsafe LLM behaviors with the same number of test inputs compared to currently used static datasets; and iii) our black-box coverage criterion combined with web browsing can effectively guide the LLM on generating up-to-date unsafe test inputs, significantly increasing the number of unsafe LLM behaviors.
arxiv情報
著者 | Miriam Ugarte,Pablo Valle,José Antonio Parejo,Sergio Segura,Aitor Arrieta |
発行日 | 2025-01-28 18:25:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google