LEALLA: Learning Lightweight Language-agnostic Sentence Embeddings with Knowledge Distillation

要約

LaBSE (Feng et al., 2022) などの大規模な言語に依存しない文埋め込みモデルは、並列文アライメントで最先端のパフォーマンスを実現します。
ただし、これらの大規模モデルは、推論速度と計算オーバーヘッドの影響を受ける可能性があります。
この研究では、軽量モデルを使用した言語に依存しない文埋め込みの学習を系統的に調査しています。
私たちは、シンディープ エンコーダが 109 言語の堅牢な低次元文埋め込みを構築できることを実証します。
私たちが提案する蒸留手法では、教師モデルからの知識を組み込むことでさらなる改善を実現します。
Tatoeba、国連、BUCC に関する実証結果は、軽量モデルの有効性を示しています。
私たちは、言語に依存しない軽量の文埋め込みモデル LEALLA を TensorFlow Hub 上でリリースします。

要約(オリジナル)

Large-scale language-agnostic sentence embedding models such as LaBSE (Feng et al., 2022) obtain state-of-the-art performance for parallel sentence alignment. However, these large-scale models can suffer from inference speed and computation overhead. This study systematically explores learning language-agnostic sentence embeddings with lightweight models. We demonstrate that a thin-deep encoder can construct robust low-dimensional sentence embeddings for 109 languages. With our proposed distillation methods, we achieve further improvements by incorporating knowledge from a teacher model. Empirical results on Tatoeba, United Nations, and BUCC show the effectiveness of our lightweight models. We release our lightweight language-agnostic sentence embedding models LEALLA on TensorFlow Hub.

arxiv情報

著者 Zhuoyuan Mao,Tetsuji Nakagawa
発行日 2023-12-26 08:11:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク