要約
大規模な言語モデル(LLMS)の安全性を確保することは責任ある展開に重要ですが、既存の評価は、障害モードの識別よりもパフォーマンスを優先することがよくあります。
幻覚と信頼性、社会的バイアス、有害なコンテンツ生成という3つの重要な側面にわたってLLMの行動を調査および評価するための多言語の診断フレームワークであるPhareを紹介します。
17の最先端のLLMの評価により、サイコファンシー、迅速な感度、ステレオタイプの生殖など、すべての安全性の次元にわたって体系的な脆弱性のパターンが明らかになります。
単にモデルをランキングするのではなく、これらの特定の障害モードを強調することにより、Phareは研究者と実践者に、より堅牢で整列した、信頼できる言語システムを構築するための実用的な洞察を提供します。
要約(オリジナル)
Ensuring the safety of large language models (LLMs) is critical for responsible deployment, yet existing evaluations often prioritize performance over identifying failure modes. We introduce Phare, a multilingual diagnostic framework to probe and evaluate LLM behavior across three critical dimensions: hallucination and reliability, social biases, and harmful content generation. Our evaluation of 17 state-of-the-art LLMs reveals patterns of systematic vulnerabilities across all safety dimensions, including sycophancy, prompt sensitivity, and stereotype reproduction. By highlighting these specific failure modes rather than simply ranking models, Phare provides researchers and practitioners with actionable insights to build more robust, aligned, and trustworthy language systems.
arxiv情報
著者 | Pierre Le Jeune,Benoît Malézieux,Weixuan Xiao,Matteo Dora |
発行日 | 2025-05-19 09:01:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google