要約
教師なし単語翻訳の驚くべき能力は、単語ベクトル/事前トレーニングの助けを借りて実証されています。
ただし、大量のデータが必要であり、データが異なるドメインからのものである場合は通常失敗します。
我々は、高次元の共起数またはその低次元の近似を使用できる方法である coocmap を提案します。
低次元の制限から解放されると、低次元ベクトルとその付随的特性に依存すると、より優れたノイズ除去方法と高次元での有用な世界の知識が得られなくなり、データの可能性が損なわれることがわかります。
私たちの結果は、教師なし翻訳がこれまで考えられていたよりも簡単かつ確実に実現できることを示しています。同様のデータでトレーニングした場合、英語からフィンランド語、ハンガリー語、中国語への翻訳で 50% 以上の精度を達成するのに必要な CPU 時間は 80MB 未満で、数分の CPU 時間しかかかりません。
;
ドメインの不一致があっても、英語 NewsCrawl から中国語 Wikipedia、英語 Europarl からスペイン語 Wikipedia などにおいて、coocmap が完全に監視されていない状態でも機能することを示しています。
これらの結果は、低次元ベクトルの必要性と優位性に関する一般的な仮定に疑問を投げかけ、同様に処理された共起が他のタスクでも高密度ベクトルよりも優れたパフォーマンスを発揮できることを示唆しています。
要約(オリジナル)
The striking ability of unsupervised word translation has been demonstrated with the help of word vectors / pretraining; however, they require large amounts of data and usually fails if the data come from different domains. We propose coocmap, a method that can use either high-dimensional co-occurrence counts or their lower-dimensional approximations. Freed from the limits of low dimensions, we show that relying on low-dimensional vectors and their incidental properties miss out on better denoising methods and useful world knowledge in high dimensions, thus stunting the potential of the data. Our results show that unsupervised translation can be achieved more easily and robustly than previously thought — less than 80MB and minutes of CPU time is required to achieve over 50\% accuracy for English to Finnish, Hungarian, and Chinese translations when trained on similar data; even under domain mismatch, we show coocmap still works fully unsupervised on English NewsCrawl to Chinese Wikipedia and English Europarl to Spanish Wikipedia, among others. These results challenge prevailing assumptions on the necessity and superiority of low-dimensional vectors, and suggest that similarly processed co-occurrences can outperform dense vectors on other tasks too.
arxiv情報
著者 | Sida I. Wang |
発行日 | 2023-05-23 16:19:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google