要約
大規模言語モデル (LLM) と小規模言語モデル (SLM) は目覚ましい速度で採用されていますが、その安全性には依然として深刻な懸念が残っています。
多言語 S/LLM の出現により、問題は規模の問題になりました。これらのモデルの多言語安全性評価を、展開時と同じ速度で拡張できるか?
この目的を達成するために、私たちは RTP-LX を導入します。RTP-LX は、人間が転写し、人間が注釈を付けた、28 言語の有害なプロンプトと出力のコーパスです。
RTP-LX は参加型デザインの実践に従っており、コーパスの一部は文化的に特有の有害な言語を検出するように特に設計されています。
私たちは、文化的に敏感な多言語シナリオで有害なコンテンツを検出する能力について 7 つの S/LLM を評価します。
通常、正確さの点では許容できるスコアを獲得しますが、プロンプトの有害性を総合的に判断する場合、人間の審査員との一致度が低く、文脈に依存するシナリオ、特に微妙だが有害なコンテンツの場合、害を識別するのが難しいことがわかりました。
例: マイクロアグレッション、偏見)。
私たちは、これらのモデルの有害な使用をさらに削減し、安全な展開を向上させるためにこのデータセットをリリースします。
要約(オリジナル)
Large language models (LLMs) and small language models (SLMs) are being adopted at remarkable speed, although their safety still remains a serious concern. With the advent of multilingual S/LLMs, the question now becomes a matter of scale: can we expand multilingual safety evaluations of these models with the same velocity at which they are deployed? To this end we introduce RTP-LX, a human-transcreated and human-annotated corpus of toxic prompts and outputs in 28 languages. RTP-LX follows participatory design practices, and a portion of the corpus is especially designed to detect culturally-specific toxic language. We evaluate seven S/LLMs on their ability to detect toxic content in a culturally-sensitive, multilingual scenario. We find that, although they typically score acceptably in terms of accuracy, they have low agreement with human judges when judging holistically the toxicity of a prompt, and have difficulty discerning harm in context-dependent scenarios, particularly with subtle-yet-harmful content (e.g. microagressions, bias). We release of this dataset to contribute to further reduce harmful uses of these models and improve their safe deployment.
arxiv情報
著者 | Adrian de Wynter,Ishaan Watts,Nektar Ege Altıntoprak,Tua Wongsangaroonsri,Minghui Zhang,Noura Farra,Lena Baur,Samantha Claudet,Pavel Gajdusek,Can Gören,Qilong Gu,Anna Kaminska,Tomasz Kaminski,Ruby Kuo,Akiko Kyuba,Jongho Lee,Kartik Mathur,Petter Merok,Ivana Milovanović,Nani Paananen,Vesa-Matti Paananen,Anna Pavlenko,Bruno Pereira Vidal,Luciano Strika,Yueh Tsao,Davide Turcato,Oleksandr Vakhno,Judit Velcsov,Anna Vickers,Stéphanie Visser,Herdyan Widarmanto,Andrey Zaikin,Si-Qing Chen |
発行日 | 2024-04-22 17:56:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google