要約
大規模言語モデル (LLM) の最近の進歩により、LLM は世界中で広範囲に展開されており、その安全性を確保するには包括的かつ多言語での毒性評価が必要です。
ただし、既存の毒性ベンチマークは圧倒的に英語に焦点を当てており、他の言語で LLM を展開する場合に深刻なリスクが生じます。
我々は、17 言語にわたる 425,000 の自然発生プロンプトを対象とした初の大規模多言語毒性評価ベンチマークである PolygloToxicityPrompts (PTP) を導入することでこの問題に対処します。
当社は、1 億を超える Web テキスト ドキュメントを自動的にスクレイピングすることで、Web テキストに自然に発生する毒性の不足を克服し、さまざまなリソースを使用して言語全体を確実にカバーします。
PTP を使用して、60 を超える LLM のベンチマークを行うことで、モデルのサイズ、プロンプト言語、指示と好みの調整方法が毒性に及ぼす影響を研究するための研究課題を調査します。
特に、言語リソースが減少したり、モデルのサイズが増加したりすると、毒性が増加することがわかりました。
命令と好みの調整により毒性は軽減されますが、好みの調整方法の選択は重大な影響を及ぼしません。
私たちの調査結果は、LLM 保護の重大な欠点に光を当て、今後の研究の余地がある領域を浮き彫りにしました。
要約(オリジナル)
Recent advances in large language models (LLMs) have led to their extensive global deployment, and ensuring their safety calls for comprehensive and multilingual toxicity evaluations. However, existing toxicity benchmarks are overwhelmingly focused on English, posing serious risks to deploying LLMs in other languages. We address this by introducing PolygloToxicityPrompts (PTP), the first large-scale multilingual toxicity evaluation benchmark of 425K naturally occurring prompts spanning 17 languages. We overcome the scarcity of naturally occurring toxicity in web-text and ensure coverage across languages with varying resources by automatically scraping over 100M web-text documents. Using PTP, we investigate research questions to study the impact of model size, prompt language, and instruction and preference-tuning methods on toxicity by benchmarking over 60 LLMs. Notably, we find that toxicity increases as language resources decrease or model size increases. Although instruction- and preference-tuning reduce toxicity, the choice of preference-tuning method does not have any significant impact. Our findings shed light on crucial shortcomings of LLM safeguarding and highlight areas for future research.
arxiv情報
著者 | Devansh Jain,Priyanshu Kumar,Samuel Gehman,Xuhui Zhou,Thomas Hartvigsen,Maarten Sap |
発行日 | 2024-05-20 15:07:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google