要約
これまで、言語モデルにおける有害性の軽減は、ほぼ完全に単一言語設定に焦点を当ててきました。
言語モデルには多言語機能が組み込まれているため、安全対策が遅れないようにすることが重要です。
この研究ギャップを認識した私たちのアプローチは、複数の言語によってもたらされる複雑さに対処するために、従来の毒性軽減の範囲を拡大します。
言語間で十分な注釈付きデータセットが存在しない場合は、翻訳されたデータを使用して緩和手法を評価および強化します。
また、静的および継続的な毒性緩和シナリオの両方で、微調整緩和アプローチと検索拡張技術を比較します。
これにより、翻訳の品質と言語を越えた伝達が毒性の軽減に及ぼす影響を調べることができます。
また、モデルのサイズとデータ量がこれらの緩和策の成功にどのように影響するかについても調査します。
9 つの言語を対象とした私たちの研究は、高リソース言語から中リソース言語に至るまで、幅広い言語族とリソースの利用可能レベルを表しています。
私たちは包括的な実験を通じて、多言語による毒性軽減の複雑さについての洞察を提供し、貴重な洞察を提供し、ますます重要になっているこの分野における将来の研究への道を切り開きます。
コードとデータは https://github.com/for-ai/goodtriever で入手できます。
要約(オリジナル)
To date, toxicity mitigation in language models has almost entirely been focused on single-language settings. As language models embrace multilingual capabilities, it’s crucial our safety measures keep pace. Recognizing this research gap, our approach expands the scope of conventional toxicity mitigation to address the complexities presented by multiple languages. In the absence of sufficient annotated datasets across languages, we employ translated data to evaluate and enhance our mitigation techniques. We also compare finetuning mitigation approaches against retrieval-augmented techniques under both static and continual toxicity mitigation scenarios. This allows us to examine the effects of translation quality and the cross-lingual transfer on toxicity mitigation. We also explore how model size and data quantity affect the success of these mitigation efforts. Covering nine languages, our study represents a broad array of linguistic families and levels of resource availability, ranging from high to mid-resource languages. Through comprehensive experiments, we provide insights into the complexities of multilingual toxicity mitigation, offering valuable insights and paving the way for future research in this increasingly important field. Code and data are available at https://github.com/for-ai/goodtriever.
arxiv情報
著者 | Luiza Pozzobon,Patrick Lewis,Sara Hooker,Beyza Ermis |
発行日 | 2024-03-06 17:51:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google