FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts

要約

大規模言語モデル (LLM) はますます人気が高まっていますが、個人やコミュニティに悪影響を与える可能性のある偏見、有毒または有害な言語を生成する傾向もあります。
生成されたコンテンツの有害性を評価して軽減するためにほとんどの取り組みが行われていますが、主に英語に重点が置かれており、他の言語も考慮することが不可欠です。
この問題に対処するために、私たちは、広く使用されている毒性分類器からの毒性スコアで注釈が付けられた、50,000 個の自然に発生するフランス語プロンプトとその継続のデータセットである FrenchToxicityPrompts を作成してリリースします。
私たちは、広く普及している 4 つのオープンソース LLM ファミリーからの 14 の異なるモデルをデータセットに対して評価し、さまざまな側面にわたって潜在的な毒性を評価します。
私たちの貢献が、英語を超えた毒性の検出と軽減に関する将来の研究を促進することを願っています。

要約(オリジナル)

Large language models (LLMs) are increasingly popular but are also prone to generating bias, toxic or harmful language, which can have detrimental effects on individuals and communities. Although most efforts is put to assess and mitigate toxicity in generated content, it is primarily concentrated on English, while it’s essential to consider other languages as well. For addressing this issue, we create and release FrenchToxicityPrompts, a dataset of 50K naturally occurring French prompts and their continuations, annotated with toxicity scores from a widely used toxicity classifier. We evaluate 14 different models from four prevalent open-sourced families of LLMs against our dataset to assess their potential toxicity across various dimensions. We hope that our contribution will foster future research on toxicity detection and mitigation beyond Englis

arxiv情報

著者 Caroline Brun,Vassilina Nikoulina
発行日 2024-06-25 14:02:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク