要約
高品質のテキスト埋め込みは、大規模言語モデル (LLM) アプリケーションの重要なコンポーネントであるセマンティック テキスト類似性 (STS) タスクを改善する上で極めて重要です。
ただし、既存のテキスト埋め込みモデルが直面する共通の課題は、主に飽和ゾーンを持つ最適化目標のコサイン関数に依存しているため、勾配の消失の問題です。
この問題に対処するために、この論文では、AnglE と呼ばれる新しい角度最適化テキスト埋め込みモデルを提案します。
AnglE の中心となるアイデアは、複雑な空間に角度の最適化を導入することです。
この新しいアプローチは、勾配を妨げ、最適化プロセスを妨げる可能性があるコサイン関数の飽和ゾーンの悪影響を効果的に軽減します。
包括的な STS 評価を設定するために、既存の短テキスト STS データセットと、GitHub Issues から新たに収集した長テキスト STS データセットを実験しました。
さらに、限られたラベル付きデータを使用してドメイン固有の STS シナリオを検証し、LLM アノテーション付きデータを AnglE がどのように処理するかを調査します。
短文 STS、長文 STS、ドメイン固有の STS タスクなど、さまざまなタスクについて広範な実験が行われました。
結果は、AnglE がコサイン飽和ゾーンを無視する最先端 (SOTA) STS モデルよりも優れていることを示しています。
これらの発見は、AnglE が高品質のテキスト埋め込みを生成する能力と、STS における角度最適化の有用性を示しています。
要約(オリジナル)
High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
arxiv情報
著者 | Xianming Li,Jing Li |
発行日 | 2024-05-16 08:21:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google