CoVoSwitch: Machine Translation of Synthetic Code-Switched Text Based on Intonation Units

要約

多言語コードスイッチングの研究は、利用可能なデータセットの不足や言語的に偏った状態によって妨げられることがよくあります。
言語表現を拡張するために、音声からテキストへの翻訳データセット CoVoST 2 を使用して、OpenAI の Whisper から微調整された音声セグメンテーション モデルである PSST を通じて検出されたイントネーション単位を置き換えることによって、コード スイッチング データを合成します。
13 言語について、M2M-100 418M と NLLB-200 600M の 2 つの多言語翻訳モデルのコードスイッチング翻訳パフォーマンスを評価します。
コード スイッチング ユニットを組み込むと、単一言語設定よりも高い翻訳パフォーマンスが得られ、モデルは英語以外の言語よりも英語へのコード スイッチング翻訳が優れていることが明らかになりました。
さらに、リソースの少ない言語では、英語に翻訳する場合にコード交換ユニットの統合から最も多くのメリットが得られますが、英語以外に翻訳する場合ははるかに少なくなります。
リソースの少ない言語への翻訳も、生のコードスイッチ入力よりもパフォーマンスが悪くなります。
システムは英語のトークンのコピーには優れているものの、英語以外のトークンには苦戦していること、単一言語設定における的外れの問題はコードスイッチング設定にも関連していること、およびモデルは、両方の言語に存在しない単語を導入することによってコードスイッチング翻訳で幻覚を起こすことがわかりました。
元のソース文の。
CoVoSwitch とコードは https://github.com/sophiayk20/covoswitch で入手できます。

要約(オリジナル)

Multilingual code-switching research is often hindered by the lack and linguistically biased status of available datasets. To expand language representation, we synthesize code-switching data by replacing intonation units detected through PSST, a speech segmentation model fine-tuned from OpenAI’s Whisper, using a speech-to-text translation dataset, CoVoST 2. With our dataset, CoVoSwitch, spanning 13 languages, we evaluate the code-switching translation performance of two multilingual translation models, M2M-100 418M and NLLB-200 600M. We reveal that the inclusion of code-switching units results in higher translation performance than monolingual settings and that models are better at code-switching translation into English than non-English. Further, low-resource languages gain most from integration of code-switched units when translating into English but much less when translating into non-English. Translations into low-resource languages also perform worse than even raw code-switched inputs. We find that systems excel at copying English tokens but struggle with non-English tokens, that the off-target problem in monolingual settings is also relevant in code-switching settings, and that models hallucinate in code-switching translation by introducing words absent in both of the original source sentences. CoVoSwitch and code are available at https://github.com/sophiayk20/covoswitch.

arxiv情報

著者 Yeeun Kang
発行日 2024-07-19 13:26:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS パーマリンク