LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps

要約

安全なアクセスと言語の多様性の両方を確保するためには、複数の言語にわたって安全な大規模な言語モデル（LLM）を構築することが不可欠です。
この目的のために、英語、フランス語、ドイツ語、イタリア語、スペイン語の5つの言語でLLMの安全性を評価する多言語ベンチマークであるM-Alertを紹介します。
M-Alertには、詳細なアラート分類法に続いて、言語ごとに15kの高品質のプロンプトが含まれており、合計75Kです。
10の最先端のLLMに関する当社の広範な実験は、言語固有の安全分析の重要性を強調しており、モデルが言語とカテゴリ全体で安全性に重要な矛盾を示すことが多いことを明らかにしています。
たとえば、llama3.2は、イタリア語のカテゴリCrime_taxで高い安全でないことを示していますが、他の言語では安全なままです。
すべてのモデルで同様の違いを観察できます。
対照的に、Substance_CannabisやCrime_Propagandaなどの特定のカテゴリは、モデルや言語間で安全でない応答を一貫してトリガーします。
これらの調査結果は、多様なユーザーコミュニティ全体で安全かつ責任ある使用を確保するために、LLMSでの堅牢な多言語安全慣行の必要性を強調しています。

要約(オリジナル)

Building safe Large Language Models (LLMs) across multiple languages is essential in ensuring both safe access and linguistic diversity. To this end, we introduce M-ALERT, a multilingual benchmark that evaluates the safety of LLMs in five languages: English, French, German, Italian, and Spanish. M-ALERT includes 15k high-quality prompts per language, totaling 75k, following the detailed ALERT taxonomy. Our extensive experiments on 10 state-of-the-art LLMs highlight the importance of language-specific safety analysis, revealing that models often exhibit significant inconsistencies in safety across languages and categories. For instance, Llama3.2 shows high unsafety in the category crime_tax for Italian but remains safe in other languages. Similar differences can be observed across all models. In contrast, certain categories, such as substance_cannabis and crime_propaganda, consistently trigger unsafe responses across models and languages. These findings underscore the need for robust multilingual safety practices in LLMs to ensure safe and responsible usage across diverse user communities.

arxiv情報

著者	Felix Friedrich,Simone Tedeschi,Patrick Schramowski,Manuel Brack,Roberto Navigli,Huu Nguyen,Bo Li,Kristian Kersting
発行日	2025-04-01 15:02:40+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー