要約
安全性とセキュリティのために大規模な言語モデル(LLM)を評価すると、複雑なタスクのままであり、多くの場合、ユーザーはアドホックベンチマーク、データセット、メトリック、およびレポート形式の断片化されたランドスケープをナビゲートする必要があります。
この課題に対処するために、LLMの安全性とセキュリティのための包括的なブラックボックス評価プラットフォームであるAixamineを提示します。
Aixamineは、安全性とセキュリティの特定の側面を対象とした8つの重要なサービスに整理された40を超えるテスト(つまり、ベンチマーク)を統合します:敵対的な堅牢性、コードセキュリティ、公平性とバイアス、幻覚、モデルとデータのプライバシー、分散除外(OOD)堅牢性、過剰反応、および安全整合。
このプラットフォームは、評価結果をモデルごとに単一の詳細なレポートに集約し、モデルのパフォーマンス、テストの例、および豊富な視覚化の詳細な内訳を提供します。
アイシャミンを使用して、50を超える公的に利用可能な独自のLLMSを評価し、2K以上の試験を実施しました。
私たちの調査結果は、OpenaiのGPT-4Oでの敵対的攻撃に対する感受性、XaiのGROK-3の偏りのある出力、GoogleのGemini 2.0のプライバシーの弱点など、主要なモデルの顕著な脆弱性を明らかにしています。
さらに、オープンソースモデルは、安全アライメント、公平性、バイアス、OODの堅牢性などの特定のサービスで独自モデルと一致または上回ることができることを観察します。
最後に、蒸留戦略、モデルサイズ、トレーニング方法、および建築的選択の間のトレードオフを特定します。
要約(オリジナル)
Evaluating Large Language Models (LLMs) for safety and security remains a complex task, often requiring users to navigate a fragmented landscape of ad hoc benchmarks, datasets, metrics, and reporting formats. To address this challenge, we present aiXamine, a comprehensive black-box evaluation platform for LLM safety and security. aiXamine integrates over 40 tests (i.e., benchmarks) organized into eight key services targeting specific dimensions of safety and security: adversarial robustness, code security, fairness and bias, hallucination, model and data privacy, out-of-distribution (OOD) robustness, over-refusal, and safety alignment. The platform aggregates the evaluation results into a single detailed report per model, providing a detailed breakdown of model performance, test examples, and rich visualizations. We used aiXamine to assess over 50 publicly available and proprietary LLMs, conducting over 2K examinations. Our findings reveal notable vulnerabilities in leading models, including susceptibility to adversarial attacks in OpenAI’s GPT-4o, biased outputs in xAI’s Grok-3, and privacy weaknesses in Google’s Gemini 2.0. Additionally, we observe that open-source models can match or exceed proprietary models in specific services such as safety alignment, fairness and bias, and OOD robustness. Finally, we identify trade-offs between distillation strategies, model size, training methods, and architectural choices.
arxiv情報
著者 | Fatih Deniz,Dorde Popovic,Yazan Boshmaf,Euisuh Jeong,Minhaj Ahmad,Sanjay Chawla,Issa Khalil |
発行日 | 2025-04-23 16:52:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google