要約
大規模言語モデル (LLM) と小規模言語モデル (SLM) は目覚ましい速度で採用されていますが、その安全性には依然として深刻な懸念が残っています。
多言語 S/LLM の出現により、問題は規模の問題になりました。これらのモデルの多言語安全性評価を、展開時と同じ速度で拡張できるか?
この目的を達成するために、私たちは、人間が転写し、人間が注釈を付けた、28 言語の有害なプロンプトと出力のコーパスである RTP-LX を導入します。
RTP-LX は参加型デザインの実践に従っており、コーパスの一部は文化的に特有の有害な言語を検出するように特に設計されています。
文化的に敏感な多言語シナリオで有害なコンテンツを検出する能力について、10 の S/LLM を評価します。
通常、正確さの点では許容できるスコアを獲得しますが、プロンプトの有害性を総合的にスコアリングする場合、人間の審査員との一致度が低いことがわかりました。
特に、微妙ではあるが有害なコンテンツ(マイクロアグレッション、偏見など)の場合、文脈依存のシナリオで害を識別することが困難です。
私たちは、これらのモデルの有害な使用をさらに削減し、安全な展開を向上させるためにこのデータセットをリリースします。
要約(オリジナル)
Large language models (LLMs) and small language models (SLMs) are being adopted at remarkable speed, although their safety still remains a serious concern. With the advent of multilingual S/LLMs, the question now becomes a matter of scale: can we expand multilingual safety evaluations of these models with the same velocity at which they are deployed? To this end, we introduce RTP-LX, a human-transcreated and human-annotated corpus of toxic prompts and outputs in 28 languages. RTP-LX follows participatory design practices, and a portion of the corpus is especially designed to detect culturally-specific toxic language. We evaluate 10 S/LLMs on their ability to detect toxic content in a culturally-sensitive, multilingual scenario. We find that, although they typically score acceptably in terms of accuracy, they have low agreement with human judges when scoring holistically the toxicity of a prompt; and have difficulty discerning harm in context-dependent scenarios, particularly with subtle-yet-harmful content (e.g. microaggressions, bias). We release this dataset to contribute to further reduce harmful uses of these models and improve their safe deployment.
arxiv情報
著者 | Adrian de Wynter,Ishaan Watts,Tua Wongsangaroonsri,Minghui Zhang,Noura Farra,Nektar Ege Altıntoprak,Lena Baur,Samantha Claudet,Pavel Gajdusek,Can Gören,Qilong Gu,Anna Kaminska,Tomasz Kaminski,Ruby Kuo,Akiko Kyuba,Jongho Lee,Kartik Mathur,Petter Merok,Ivana Milovanović,Nani Paananen,Vesa-Matti Paananen,Anna Pavlenko,Bruno Pereira Vidal,Luciano Strika,Yueh Tsao,Davide Turcato,Oleksandr Vakhno,Judit Velcsov,Anna Vickers,Stéphanie Visser,Herdyan Widarmanto,Andrey Zaikin,Si-Qing Chen |
発行日 | 2024-12-16 17:34:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google