Arabic Dataset for LLM Safeguard Evaluation

要約

大規模言語モデル (LLM) の使用が増加しているため、その安全性に関する懸念が生じています。
多くの研究は英語に焦点を当てていますが、言語的および文化的に複雑なアラビア語の LLM の安全性はまだ調査されていません。
ここでは、このギャップを埋めることを目指しています。
特に、アラブ世界の社会文化的背景を反映するように調整された、直接攻撃、間接攻撃、デリケートな言葉による無害な要求など、5,799 の質問で構成されるアラブ地域固有の安全性評価データセットを紹介します。
デリケートで物議を醸すトピックを扱う際のさまざまなスタンスの影響を明らかにするために、私たちは二重の視点からの評価フレームワークを提案します。
政府と野党の両方の観点からLLMの対応を評価します。
5 つの主要なアラビア語中心の多言語 LLM を対象とした実験により、安全性能に大きな差があることが明らかになりました。
これにより、責任を持って LLM を展開するには、文化的に固有のデータセットの必要性が強化されます。

要約(オリジナル)

The growing use of large language models (LLMs) has raised concerns regarding their safety. While many studies have focused on English, the safety of LLMs in Arabic, with its linguistic and cultural complexities, remains under-explored. Here, we aim to bridge this gap. In particular, we present an Arab-region-specific safety evaluation dataset consisting of 5,799 questions, including direct attacks, indirect attacks, and harmless requests with sensitive words, adapted to reflect the socio-cultural context of the Arab world. To uncover the impact of different stances in handling sensitive and controversial topics, we propose a dual-perspective evaluation framework. It assesses the LLM responses from both governmental and opposition viewpoints. Experiments over five leading Arabic-centric and multilingual LLMs reveal substantial disparities in their safety performance. This reinforces the need for culturally specific datasets to ensure the responsible deployment of LLMs.

arxiv情報

著者 Yasser Ashraf,Yuxia Wang,Bin Gu,Preslav Nakov,Timothy Baldwin
発行日 2024-10-22 14:12:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク