Linear Cross-Lingual Mapping of Sentence Embeddings

要約

文の意味論は、単一の単語の意味論よりも曖昧さがはるかに少なく定義されており、別の言語に翻訳することでよりよく保存されるはずです。
多言語文の埋め込みが文の意味論を表現することを意図している場合、任意の 2 つの文の埋め込み間の類似性は、翻訳に関して不変でなければなりません。
この提案に基づいて、多言語埋め込みの改善の可能性として、単純な線形の言語間マッピングを検討します。
また、直交性条件からの逸脱も埋め込みの欠陥の尺度として考慮します。

要約(オリジナル)

Semantics of a sentence is defined with much less ambiguity than semantics of a single word, and it should be better preserved by translation to another language. If multilingual sentence embeddings intend to represent sentence semantics, then the similarity between embeddings of any two sentences must be invariant with respect to translation. Based on this suggestion, we consider a simple linear cross-lingual mapping as a possible improvement of the multilingual embeddings. We also consider deviation from orthogonality conditions as a measure of deficiency of the embeddings.

arxiv情報

著者 Oleg Vasilyev,Fumika Isono,John Bohannon
発行日 2023-05-23 17:10:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク