SafeWorld: Geo-Diverse Safety Alignment

要約

急速に進化している大規模言語モデル (LLM) の分野では、安全性の確保は重要なテーマであり、広く議論されています。
しかし、既存の作品は、世界中の文化的および法的基準の地理的多様性を見落としていることがよくあります。
地理的に多様な安全基準によってもたらされる課題を実証するために、役に立つだけでなく文化的に配慮し、多様な世界的文脈にわたって法に準拠した応答を生成する LLM の能力を評価するために特別に設計された新しいベンチマークである SafeWorld を紹介します。
SafeWorld には 2,342 のテスト ユーザー クエリが含まれており、それぞれのクエリは、50 か国、493 の地域/人種の高品質で人間によって検証された文化規範と法的政策に基づいています。
その上で、状況に応じた適切性、正確性、対応の包括性を評価する多次元の自動安全性評価フレームワークを提案します。
私たちの評価では、現在の LLM がこれらの基準を満たすのに苦労していることが明らかになりました。
LLM と地理的に多様な安全基準との連携を強化するために、直接優先最適化 (DPO) 連携トレーニングに役立つ優先ペアを合成します。
プリファレンスペアの構築は、LLM が適切に行動することを奨励し、必要に応じて関連する文化的規範やポリシーへの正確な参照を提供することを目的としています。
当社のトレーニングを受けた SafeWorldLM は、GPT-4o を含むすべての競合モデルを 3 つの評価次元すべてで大幅に上回っています。
世界中の人間の評価者は、有用性と有害性の評価において勝率が 20% 近く高いことにも注目しています。
私たちのコードとデータは、https://github.com/PlusLabNLP/SafeWorld にあります。

要約(オリジナル)

In the rapidly evolving field of Large Language Models (LLMs), ensuring safety is a crucial and widely discussed topic. However, existing works often overlook the geo-diversity of cultural and legal standards across the world. To demonstrate the challenges posed by geo-diverse safety standards, we introduce SafeWorld, a novel benchmark specifically designed to evaluate LLMs’ ability to generate responses that are not only helpful but also culturally sensitive and legally compliant across diverse global contexts. SafeWorld encompasses 2,342 test user queries, each grounded in high-quality, human-verified cultural norms and legal policies from 50 countries and 493 regions/races. On top of it, we propose a multi-dimensional automatic safety evaluation framework that assesses the contextual appropriateness, accuracy, and comprehensiveness of responses. Our evaluations reveal that current LLMs struggle to meet these criteria. To enhance LLMs’ alignment with geo-diverse safety standards, we synthesize helpful preference pairs for Direct Preference Optimization (DPO) alignment training. The preference pair construction aims to encourage LLMs to behave appropriately and provide precise references to relevant cultural norms and policies when necessary. Our trained SafeWorldLM outperforms all competing models, including GPT-4o on all three evaluation dimensions by a large margin. Global human evaluators also note a nearly 20% higher winning rate in helpfulness and harmfulness evaluation. Our code and data can be found here: https://github.com/PlusLabNLP/SafeWorld.

arxiv情報

著者 Da Yin,Haoyi Qiu,Kung-Hsiang Huang,Kai-Wei Chang,Nanyun Peng
発行日 2024-12-09 13:31:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク