Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

要約

大規模言語モデルは自然言語理解において顕著な性能を発揮する一方で、リソースを大量に消費する性質があるため、利用しにくくなっている。対照的に、MiniCPMのような小型言語モデルは、より持続的なスケーラビリティを提供するが、特別な最適化を行わないと、しばしば性能不足になる。本稿では、テキスト埋め込みを改善することで、より小さな言語モデルを強化する方法を探る。MiniCPM、Phi-2、Gemmaの3つの言語モデルを選択し、NLIデータセット上で対照的な微調整を行う。その結果、MiniCPMは平均56.33%の性能向上という最も顕著な改善を示した。コントラスト微調整コードは https://github.com/trapoom555/Language-Model-STS-CFT で公開されている。

要約(オリジナル)

While Large Language Models show remarkable performance in natural language understanding, their resource-intensive nature makes them less accessible. In contrast, smaller language models such as MiniCPM offer more sustainable scalability, but often underperform without specialized optimization. In this paper, we explore the enhancement of smaller language models through the improvement of their text embeddings. We select three language models, MiniCPM, Phi-2, and Gemma, to conduct contrastive fine-tuning on the NLI dataset. Our results demonstrate that this fine-tuning method enhances the quality of text embeddings for all three models across various benchmarks, with MiniCPM showing the most significant improvements of an average 56.33% performance gain. The contrastive fine-tuning code is publicly available at https://github.com/trapoom555/Language-Model-STS-CFT.

arxiv情報

著者 Trapoom Ukarapol,Zhicheng Lee,Amy Xin
発行日 2024-08-02 14:36:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク