Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models

要約

多くのユースケースでは、テキストのより小さい部分を取得する必要があり、埋め込み内でセマンティクスが過度に圧縮される可能性が低いため、高密度ベクトルベースの取得システムは、短いテキストセグメントの方がパフォーマンスが優れていることがよくあります。
したがって、実務者はテキスト文書をより小さなチャンクに分割し、個別にエンコードすることがよくあります。
ただし、この方法で作成されたチャンク埋め込みでは、周囲のチャンクからコンテキスト情報が失われる可能性があり、その結果、最適化されていない表現が得られます。
この論文では、レイト チャンキングと呼ばれる新しい方法を紹介します。これは、長いコンテキストの埋め込みモデルを活用して、最初に長いテキストのすべてのトークンを埋め込みます。チャンキングは、トランスフォーマー モデルの後、平均プーリングの直前に適用されます。そのため、レイトという用語が命名されています。
結果として得られるチャンクの埋め込みは、完全なコンテキスト情報をキャプチャし、さまざまな検索タスクにわたって優れた結果をもたらします。
このメソッドは、広範囲のロングコンテキスト埋め込みモデルに適用できるほど汎用的であり、追加のトレーニングなしで機能します。
レイトチャンキングの有効性をさらに高めるために、埋め込みモデル専用の微調整アプローチを提案します。

要約(オリジナル)

Many use cases require retrieving smaller portions of text, and dense vector-based retrieval systems often perform better with shorter text segments, as the semantics are less likely to be over-compressed in the embeddings. Consequently, practitioners often split text documents into smaller chunks and encode them separately. However, chunk embeddings created in this way can lose contextual information from surrounding chunks, resulting in sub-optimal representations. In this paper, we introduce a novel method called late chunking, which leverages long context embedding models to first embed all tokens of the long text, with chunking applied after the transformer model and just before mean pooling – hence the term late in its naming. The resulting chunk embeddings capture the full contextual information, leading to superior results across various retrieval tasks. The method is generic enough to be applied to a wide range of long-context embedding models and works without additional training. To further increase the effectiveness of late chunking, we propose a dedicated fine-tuning approach for embedding models.

arxiv情報

著者 Michael Günther,Isabelle Mohr,Daniel James Williams,Bo Wang,Han Xiao
発行日 2024-10-02 15:07:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.IR, I.2.7 パーマリンク