要約
多言語機械翻訳は、リソースが少なくゼロショットの言語ペアにとって非常に役立つことが証明されています。
ただし、多言語モデルの言語ペアでは、特に 1 対多の設定で翻訳する場合、二言語モデルよりもパフォーマンスが低下することがあります。
その理由を理解するために、二言語モデルの表現と 1 対多の多言語モデルの表現における幾何学的差異を調べます。
具体的には、表現の等方性を評価して、基になるベクトル空間の次元がどの程度うまく利用されているかを測定します。
両方のモデルで同じ評価データを使用すると、多言語モデル デコーダ表現は二言語モデル デコーダ表現よりも等方性が低い傾向があることがわかります。
さらに、多言語デコーダ表現の異方性の多くは言語固有の情報のモデリングに起因する可能性があるため、残りの表現能力が制限されることを示します。
要約(オリジナル)
Multilingual machine translation has proven immensely useful for low-resource and zero-shot language pairs. However, language pairs in multilingual models sometimes see worse performance than in bilingual models, especially when translating in a one-to-many setting. To understand why, we examine the geometric differences in the representations from bilingual models versus those from one-to-many multilingual models. Specifically, we evaluate the isotropy of the representations, to measure how well they utilize the dimensions in their underlying vector space. Using the same evaluation data in both models, we find that multilingual model decoder representations tend to be less isotropic than bilingual model decoder representations. Additionally, we show that much of the anisotropy in multilingual decoder representations can be attributed to modeling language-specific information, therefore limiting remaining representational capacity.
arxiv情報
著者 | Neha Verma,Kenton Murray,Kevin Duh |
発行日 | 2023-05-23 16:46:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google