The Unreasonable Effectiveness of Random Target Embeddings for Continuous-Output Neural Machine Translation

要約

連続出力ニューラル機械翻訳 (CoNMT) は、離散次単語予測問題を埋め込み予測に置き換えます。
ターゲット埋め込み空間の意味構造 (つまり、関連単語の近さ) が重要であると直感的に考えられています。
私たちはこの仮定に異議を唱え、特に大規模なデータセットでは、完全にランダムな出力エンベディングが、苦労して事前トレーニングされたものよりも優れたパフォーマンスを発揮できることを示します。
さらに調査を進めると、この驚くべき効果は、その埋め込みの幾何学的形状により、まれな単語に対して最も強いことがわかります。
私たちは、さまざまなトークンのランダムな埋め込みと事前トレーニングされた埋め込みを組み合わせた混合戦略を設計することで、この発見にさらに光を当てました。

要約(オリジナル)

Continuous-output neural machine translation (CoNMT) replaces the discrete next-word prediction problem with an embedding prediction. The semantic structure of the target embedding space (i.e., closeness of related words) is intuitively believed to be crucial. We challenge this assumption and show that completely random output embeddings can outperform laboriously pretrained ones, especially on larger datasets. Further investigation shows this surprising effect is strongest for rare words, due to the geometry of their embeddings. We shed further light on this finding by designing a mixed strategy that combines random and pre-trained embeddings for different tokens.

arxiv情報

著者 Evgeniia Tokarchuk,Vlad Niculae
発行日 2024-04-02 15:56:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク