LEALLA: Learning Lightweight Language-agnostic Sentence Embeddings with Knowledge Distillation

要約

LaBSE (Feng et al., 2022) などの大規模な言語に依存しない文埋め込みモデルは、並列文のアラインメントで最先端のパフォーマンスを実現します。
ただし、これらの大規模モデルは、推論速度と計算オーバーヘッドに悩まされる可能性があります。
この研究では、言語に依存しない文の埋め込みを軽量モデルで学習する方法を体系的に調査します。
シンディープ エンコーダーが 109 の言語の堅牢な低次元文埋め込みを構築できることを示します。
提案された蒸留方法では、教師モデルからの知識を組み込むことで、さらなる改善を実現します。
Tatoeba、国連、および BUCC での実験結果は、軽量モデルの有効性を示しています。
TensorFlow Hub で軽量な言語に依存しない文埋め込みモデル LEALLA をリリースします。

要約(オリジナル)

Large-scale language-agnostic sentence embedding models such as LaBSE (Feng et al., 2022) obtain state-of-the-art performance for parallel sentence alignment. However, these large-scale models can suffer from inference speed and computation overhead. This study systematically explores learning language-agnostic sentence embeddings with lightweight models. We demonstrate that a thin-deep encoder can construct robust low-dimensional sentence embeddings for 109 languages. With our proposed distillation methods, we achieve further improvements by incorporating knowledge from a teacher model. Empirical results on Tatoeba, United Nations, and BUCC show the effectiveness of our lightweight models. We release our lightweight language-agnostic sentence embedding models LEALLA on TensorFlow Hub.

arxiv情報

著者 Zhuoyuan Mao,Tetsuji Nakagawa
発行日 2023-02-16 16:05:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク