When Text Embedding Meets Large Language Model: A Comprehensive Survey

要約

テキストの埋め込みは、深い学習時代に自然言語処理(NLP)の基礎技術となっており、幅広い下流のタスクにわたって進歩を促進しています。
多くの自然言語の理解の課題は、生成パラダイムを使用してモデル化し、大規模な言語モデル(LLM)の堅牢な生成および理解能力を活用することができますが、セマンティックマッチング、クラスタリング、情報検索など、効率と効率のためにテキストの組み込みに依存するようになります。
したがって、LLMとテキストの埋め込みを組み合わせる方法は、近年、学術的な注目のホットスポットの1つになりました。
この調査では、LLMとテキストの埋め込みとの相互作用を3つの包括的なテーマに分類します。(1)LLMの高度テキスト埋め込み、LLMによる従来の埋め込み方法を強化します。
(2)テキスト埋め込み者としてのLLMS。高品質の埋め込みのために生来の機能を適応させます。
(3)LLMを使用して理解を埋め込み、LLMを活用して埋め込みを分析および解釈するテキスト。
特定のダウンストリームアプリケーションではなく相互作用パターンに基づいて最近の作品を整理することにより、LLMSの時代におけるさまざまな研究およびアプリケーションドメインからの貢献の斬新かつ体系的な概要を提供します。
さらに、事前に訓練された言語モデル(PLMS)を使用して、LLM以前の時代に持続した未解決の課題を強調し、LLMSによってもたらされる新しい障害を調査します。
この分析に基づいて、テキストの埋め込みの進化に関する将来の方向性の概要を説明し、NLPの急速に前進する景観における理論的および実用的な機会の両方に対処します。

要約(オリジナル)

Text embedding has become a foundational technology in natural language processing (NLP) during the deep learning era, driving advancements across a wide array of downstream tasks. While many natural language understanding challenges can now be modeled using generative paradigms and leverage the robust generative and comprehension capabilities of large language models (LLMs), numerous practical applications-such as semantic matching, clustering, and information retrieval-continue to rely on text embeddings for their efficiency and effectiveness. Therefore, how to combine the LLMs and the text embeddings has become one of the hotspots of academic attention in recent years. In this survey, we categorize the interplay between LLMs and text embeddings into three overarching themes: (1) LLM-augmented text embedding, enhancing traditional embedding methods with LLMs; (2) LLMs as text embedders, adapting their innate capabilities for high-quality embedding; and (3) Text embedding understanding with LLMs, leveraging LLMs to analyze and interpret embeddings. By organizing recent works based on interaction patterns rather than specific downstream applications, we offer a novel and systematic overview of contributions from various research and application domains in the era of LLMs. Furthermore, we highlight the unresolved challenges that persisted in the pre-LLM era with pre-trained language models (PLMs) and explore the emerging obstacles brought forth by LLMs. Building on this analysis, we outline prospective directions for the evolution of text embedding, addressing both theoretical and practical opportunities in the rapidly advancing landscape of NLP.

arxiv情報

著者 Zhijie Nie,Zhangchi Feng,Mingxin Li,Cunwang Zhang,Yanzhao Zhang,Dingkun Long,Richong Zhang
発行日 2025-03-13 16:11:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク