要約
Transformer ベースのニューラル機械翻訳 (NMT) は、高リソース環境では非常に効果的ですが、多くの言語には、その恩恵を受けるために必要な大規模な並列コーパスが不足しています。
2 つの密接に関連した言語間の低リソース (LR) MT のコンテキストでは、そのような言語ペアが多くの場合、言語ペアを共有していることを考慮すると、ソースからターゲットにサブワードをコピーするなど、構造的な「ショートカット」から利点を求めるのが自然な直観です。
かなりの数の同一の単語、同義語、および借用。
この目的のために、さまざまなリソース範囲にわたって 6 つの言語ペアに対してポインター ジェネレーター ネットワークをテストし、ほとんどの設定で弱い改善が見られました。
ただし、分析の結果、このモデルは、密接に関連した言語ペアとより遠い言語ペアの場合、またはリソース範囲が狭い場合に大きな改善が示されていないこと、およびモデルが共有サブワードのメカニズムの期待された使用法を示していないことが示されています。
この動作の理由についての議論は、最新のトークン化戦略、騒々しい現実世界の状況、言語の複雑さなど、LR NMT のいくつかの一般的な課題を浮き彫りにします。
私たちは、Transformer モデルのブラックボックス的な性質を考慮して、NMT に対する言語的動機に基づいた改善をさらに精査するとともに、現場における上記の問題に焦点を当てることを求めます。
要約(オリジナル)
While Transformer-based neural machine translation (NMT) is very effective in high-resource settings, many languages lack the necessary large parallel corpora to benefit from it. In the context of low-resource (LR) MT between two closely-related languages, a natural intuition is to seek benefits from structural ‘shortcuts’, such as copying subwords from the source to the target, given that such language pairs often share a considerable number of identical words, cognates, and borrowings. We test Pointer-Generator Networks for this purpose for six language pairs over a variety of resource ranges, and find weak improvements for most settings. However, analysis shows that the model does not show greater improvements for closely-related vs. more distant language pairs, or for lower resource ranges, and that the models do not exhibit the expected usage of the mechanism for shared subwords. Our discussion of the reasons for this behaviour highlights several general challenges for LR NMT, such as modern tokenization strategies, noisy real-world conditions, and linguistic complexities. We call for better scrutiny of linguistically motivated improvements to NMT given the blackbox nature of Transformer models, as well as for a focus on the above problems in the field.
arxiv情報
著者 | Niyati Bafna,Philipp Koehn,David Yarowsky |
発行日 | 2024-03-25 12:37:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google