要約
この研究は、攻撃的で不正確な翻訳につながる可能性がある、音声翻訳 (ST) システムにおける話者の性別による偏見の問題に取り組んでいます。
大規模な ST システムでよく見られる男性的なバイアスは、通常、機械翻訳 (MT) システムから得られたトレーニング データを通じて永続化されます。
私たちのアプローチには 2 つの重要なステップが含まれます。
まず、大規模言語モデル (LLM) を使用して、話者の性別に基づいてコスト効率の高い方法で翻訳を修正します。
次に、修正されたデータを使用して ST モデルを微調整し、明示的な性別入力を必要とせずに、モデルが音声キューから直接性別固有の翻訳を生成できるようにします。
さらに、話者の性別が事前に定義されているか、音声キューから推測すべきではないシナリオに対して、3 モードの微調整モデルを提案します。
MuST-SHE テスト セットでは、ベースラインや他の大規模 ST システム (シームレス M4T や Canary など) と比較して、女性話者の翻訳が 70% 向上していることが実証されています。
要約(オリジナル)
This study addresses the issue of speaker gender bias in Speech Translation (ST) systems, which can lead to offensive and inaccurate translations. The masculine bias often found in large-scale ST systems is typically perpetuated through training data derived from Machine Translation (MT) systems. Our approach involves two key steps. First, we employ Large Language Models (LLMs) to rectify translations based on the speaker’s gender in a cost-effective manner. Second, we fine-tune the ST model with the corrected data, enabling the model to generate gender-specific translations directly from audio cues, without the need for explicit gender input. Additionally, we propose a three-mode fine-tuned model for scenarios where the speaker’s gender is either predefined or should not be inferred from speech cues. We demonstrate a 70% improvement in translations for female speakers compared to our baseline and other large-scale ST systems, such as Seamless M4T and Canary, on the MuST-SHE test set.
arxiv情報
| 著者 | Shubham Bansal,Vikas Joshi,Harveen Chadha,Rupeshkumar Mehta,Jinyu Li | 
| 発行日 | 2025-01-10 14:20:46+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
