要約
自然言語処理の分野(NLP)で使用されるテキストデータのかなりの部分は、特に男性のジェネリック(男性と女性の混合グループを参照することになっている男性的な単語)の使用により、性別の偏りを示します。
ジェンダーの書き換えは、性別のフォームを中立または反対のフォーム(例えば、男性から女性へ)で自動的に検出して置き換えることを伴うNLPタスクを使用して、これらのバイアスを軽減することができます。
そのようなシステムは多くの言語(英語、アラビア語、ポルトガル語、ドイツ語、フランス語)で開発されていますが、性別中和技術の自動使用(包括的または性別スイッチング技術とは対照的に)は英語のみが研究されています。
このペーパーでは、フランス語で固定された集団名詞を使用して、最初のフランスの性別中立の書き換えシステムであるジャンルを紹介します。
RBSによって生成されたデータでトレーニングされた2つの微調整された言語モデルとともに、フランス語向けに調整されたルールベースのシステム(RBS)を導入します。
また、他のシステムのパフォーマンスを向上させるために、指示ベースのモデルの使用を調査し、Claude 3 Opusと辞書がRBに近い結果を達成することを発見しました。
この貢献を通じて、フランス語のNLPにおける性別バイアス緩和技術の進歩を促進したいと考えています。
要約(オリジナル)
A significant portion of the textual data used in the field of Natural Language Processing (NLP) exhibits gender biases, particularly due to the use of masculine generics (masculine words that are supposed to refer to mixed groups of men and women), which can perpetuate and amplify stereotypes. Gender rewriting, an NLP task that involves automatically detecting and replacing gendered forms with neutral or opposite forms (e.g., from masculine to feminine), can be employed to mitigate these biases. While such systems have been developed in a number of languages (English, Arabic, Portuguese, German, French), automatic use of gender neutralization techniques (as opposed to inclusive or gender-switching techniques) has only been studied for English. This paper presents GeNRe, the very first French gender-neutral rewriting system using collective nouns, which are gender-fixed in French. We introduce a rule-based system (RBS) tailored for the French language alongside two fine-tuned language models trained on data generated by our RBS. We also explore the use of instruct-based models to enhance the performance of our other systems and find that Claude 3 Opus combined with our dictionary achieves results close to our RBS. Through this contribution, we hope to promote the advancement of gender bias mitigation techniques in NLP for French.
arxiv情報
著者 | Enzo Doyen,Amalia Todirascu |
発行日 | 2025-05-29 16:36:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google