How To Build Competitive Multi-gender Speech Translation Models For Controlling Speaker Gender Translation


概念的な性別言語 (英語など) から文法的な性別言語 (イタリア語など) に翻訳する場合、生成された翻訳では、話者を指す言葉を含むさまざまな単語に明示的な性別の割り当てが必要になります。
ソース文が話者の性別を伝えていない場合、音声翻訳 (ST) モデルは、誤解を招く可能性のある話者の音声特性に依存するか、既存のトレーニング コーパスで最も頻繁に使用される男性の性別をデフォルトに設定します。
これまでの研究では、最も効果的な解決策は個別の専用の性別固有モデルによって表されることが示されていますが、この論文の目標は、話者の性別メタデータを単一の「マルチジェンダー」ニューラル ST モデルに統合することで同じ結果を達成することです。
私たちの実験では、単一のマルチジェンダー モデルが、ゼロからトレーニングした場合にはジェンダーに特化したモデルよりも優れたパフォーマンスを発揮することが示されました (女性型の場合、性別の精度が最大 12.9 向上します)。一方、既存の ST モデルからの微調整では競争力のある結果は得られません。


When translating from notional gender languages (e.g., English) into grammatical gender languages (e.g., Italian), the generated translation requires explicit gender assignments for various words, including those referring to the speaker. When the source sentence does not convey the speaker’s gender, speech translation (ST) models either rely on the possibly-misleading vocal traits of the speaker or default to the masculine gender, the most frequent in existing training corpora. To avoid such biased and not inclusive behaviors, the gender assignment of speaker-related expressions should be guided by externally-provided metadata about the speaker’s gender. While previous work has shown that the most effective solution is represented by separate, dedicated gender-specific models, the goal of this paper is to achieve the same results by integrating the speaker’s gender metadata into a single ‘multi-gender’ neural ST model, easier to maintain. Our experiments demonstrate that a single multi-gender model outperforms gender-specialized ones when trained from scratch (with gender accuracy gains up to 12.9 for feminine forms), while fine-tuning from existing ST models does not lead to competitive results.


著者 Marco Gaido,Dennis Fucci,Matteo Negri,Luisa Bentivogli
発行日 2023-10-23 17:21:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク