ReSeTOX: Re-learning attention weights for toxicity mitigation in machine translation

要約

私たちが提案する手法である ReSeTOX (REdo SEarch if TOXic) は、入力に存在しない有害な単語を含む翻訳出力を生成するニューラル機械翻訳 (NMT) の問題に対処します。
目的は、再トレーニングを必要とせずに有害な言葉の導入を軽減することです。
推論プロセス中に追加の毒性が特定された場合、ReSeTOX はキーと値のセルフアテンションの重みを動的に調整し、ビーム探索仮説を再評価します。
実験結果は、ReSeTOX が 164 言語にわたって平均 99.5% の翻訳品質を維持しながら、追加毒性を 57% という顕著な削減を達成することを示しています。

要約(オリジナル)

Our proposed method, ReSeTOX (REdo SEarch if TOXic), addresses the issue of Neural Machine Translation (NMT) generating translation outputs that contain toxic words not present in the input. The objective is to mitigate the introduction of toxic language without the need for re-training. In the case of identified added toxicity during the inference process, ReSeTOX dynamically adjusts the key-value self-attention weights and re-evaluates the beam search hypotheses. Experimental results demonstrate that ReSeTOX achieves a remarkable 57% reduction in added toxicity while maintaining an average translation quality of 99.5% across 164 languages.

arxiv情報

著者 Javier García Gilabert,Carlos Escolano,Marta R. Costa-Jussà
発行日 2023-05-19 15:46:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク