The power of Prompts: Evaluating and Mitigating Gender Bias in MT with LLMs

要約

この論文では、大規模言語モデル (LLM) のレンズを通して機械翻訳におけるジェンダー バイアスを研究します。
広く使用されている 4 つのテスト セットを使用して、さまざまな基本 LLM のベンチマークを行い、英語からカタロニア語 (En $\rightarrow$ Ca) および英語の最先端のニューラル機械翻訳 (NMT) モデルと翻訳品質とジェンダー バイアスを比較します。
スペイン語 (En $\rightarrow$ Es) への翻訳指示。
私たちの調査結果では、すべてのモデルにわたってジェンダーバイアスが蔓延しており、ベース LLM は NMT モデルと比較してより高度なバイアスを示していることが明らかになりました。
このバイアスに対抗するために、私たちは命令調整された LLM に適用されるプロンプト エンジニアリング手法を検討します。
WinoMT 評価データセットでは、より単純なプロンプトと比較して、ジェンダー バイアスを最大 12% 大幅に軽減するプロンプト構造を特定しました。
これらの結果により、LLM と従来の NMT システムの間のジェンダーバイアスの精度の差が大幅に減少します。

要約(オリジナル)

This paper studies gender bias in machine translation through the lens of Large Language Models (LLMs). Four widely-used test sets are employed to benchmark various base LLMs, comparing their translation quality and gender bias against state-of-the-art Neural Machine Translation (NMT) models for English to Catalan (En $\rightarrow$ Ca) and English to Spanish (En $\rightarrow$ Es) translation directions. Our findings reveal pervasive gender bias across all models, with base LLMs exhibiting a higher degree of bias compared to NMT models. To combat this bias, we explore prompting engineering techniques applied to an instruction-tuned LLM. We identify a prompt structure that significantly reduces gender bias by up to 12% on the WinoMT evaluation dataset compared to more straightforward prompts. These results significantly reduce the gender bias accuracy gap between LLMs and traditional NMT systems.

arxiv情報

著者 Aleix Sant,Carlos Escolano,Audrey Mash,Francesca De Luca Fornaciari,Maite Melero
発行日 2024-07-26 14:47:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク