要約
大規模言語モデル (LLM) の普及により、有害なコンテンツを検出して防御するためにガードレールが重要になっています。
しかし、多言語シナリオにおける LLM の普及が進むにつれて、多言語の有害なインプットの処理における LLM の有効性は依然として不明瞭です。
この研究では、最先端のガードレールのパフォーマンスをベンチマークするために、7 つのデータセットと 10 を超える言語にわたる包括的な多言語テスト スイートを導入します。
また、最近のジェイルブレイク技術に対するガードレールの回復力を調査し、コンテキスト内の安全ポリシーと利用可能な言語リソースがガードレールのパフォーマンスに及ぼす影響を評価します。
私たちの調査結果は、既存のガードレールが多言語の毒性に対処するのに依然として効果がなく、脱獄プロンプトに対する堅牢性に欠けていることを示しています。
この作業の目的は、ガードレールの制限を特定し、多言語シナリオでより信頼性の高い LLM を構築することです。
要約(オリジナル)
With the ubiquity of Large Language Models (LLMs), guardrails have become crucial to detect and defend against toxic content. However, with the increasing pervasiveness of LLMs in multilingual scenarios, their effectiveness in handling multilingual toxic inputs remains unclear. In this work, we introduce a comprehensive multilingual test suite, spanning seven datasets and over ten languages, to benchmark the performance of state-of-the-art guardrails. We also investigates the resilience of guardrails against recent jailbreaking techniques, and assess the impact of in-context safety policies and language resource availability on guardrails’ performance. Our findings show that existing guardrails are still ineffective at handling multilingual toxicity and lack robustness against jailbreaking prompts. This work aims to identify the limitations of guardrails and to build a more reliable and trustworthy LLMs in multilingual scenarios.
arxiv情報
著者 | Yahan Yang,Soham Dan,Dan Roth,Insup Lee |
発行日 | 2024-10-29 15:51:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google