How Lexical is Bilingual Lexicon Induction?

要約

バイリンガル語彙誘導 (BLI) に対する現代の機械学習アプローチでは、モデルは言語ペアの埋め込み空間間のマッピングを学習します。
最近、BLI に対する取得とランク付けのアプローチにより、このタスクに関して最先端の結果が得られました。
ただし、リソースが少ない環境ではデータが不足しているため、この問題は依然として困難です。
この作業は、言語間の語彙の違いなどの要因によって複雑になります。
私たちは、最近の検索とランク付けのアプローチに追加の語彙情報を組み込むことで、語彙の誘導が改善されるはずだと主張します。
私たちは、XLING に対する私たちの提案したアプローチの有効性を実証し、すべての言語ペアにわたって以前の最先端技術より平均 2\% 改善しました。

要約(オリジナル)

In contemporary machine learning approaches to bilingual lexicon induction (BLI), a model learns a mapping between the embedding spaces of a language pair. Recently, retrieve-and-rank approach to BLI has achieved state of the art results on the task. However, the problem remains challenging in low-resource settings, due to the paucity of data. The task is complicated by factors such as lexical variation across languages. We argue that the incorporation of additional lexical information into the recent retrieve-and-rank approach should improve lexicon induction. We demonstrate the efficacy of our proposed approach on XLING, improving over the previous state of the art by an average of 2\% across all language pairs.

arxiv情報

著者 Harsh Kohli,Helian Feng,Nicholas Dronen,Calvin McCarter,Sina Moeini,Ali Kebarighotbi
発行日 2024-04-05 17:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク