要約
最近の生成大規模な言語モデル(LLMS)は、英語以外の言語で顕著なパフォーマンスを示していますが、それらの言語で促されると、より高い有害な社会的偏見と毒性レベルを表現する傾向があります。
以前の作業では、特殊なデータセットでの微調整がこの動作を軽減できることを示しており、英語でそうすることで他の言語に転送できることが示されています。
この作業では、モデルのバイアスと毒性に対するさまざまな微調整方法の影響を調査しますが、流fluentで多様なテキストを生成する能力についても調査します。
キュレーションされた非薬物テキストで微調整することによりバイアスを減らしますが、毒性の緩和に効果的であるため、直接的な優先順位の最適化のみが見つかります。
これらの方法を英語で適用することによって引き起こされる緩和も、英語以外の言語に転送されます。
転送が行われる程度は、モデルの前削減データに存在する特定の言語のデータの量によって予測できるという証拠を見つけます。
ただし、このバイアスと毒性緩和の移転は、英語以外の言語で言語生成能力の低下を犠牲にして、言語固有のバイアスと毒性緩和方法の開発の重要性を強調することがよくあります。
要約(オリジナル)
Recent generative large language models (LLMs) show remarkable performance in non-English languages, but when prompted in those languages they tend to express higher harmful social biases and toxicity levels. Prior work has shown that finetuning on specialized datasets can mitigate this behavior, and doing so in English can transfer to other languages. In this work, we investigate the impact of different finetuning methods on the model’s bias and toxicity, but also on its ability to produce fluent and diverse text. We reduce biases by finetuning on curated non-harmful text, but find only direct preference optimization to be effective for mitigating toxicity. The mitigation caused by applying these methods in English also transfers to non-English languages. We find evidence that the extent to which transfer takes place can be predicted by the amount of data in a given language present in the model’s pretraining data. However, this transfer of bias and toxicity mitigation often comes at the expense of decreased language generation ability in non-English languages, highlighting the importance of developing language-specific bias and toxicity mitigation methods.
arxiv情報
著者 | Vera Neplenbroek,Arianna Bisazza,Raquel Fernández |
発行日 | 2025-02-14 15:39:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google