MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System

要約

検索された生成(RAG)は、大規模な言語モデル(LLM)を実行可能な補完として機能させながら、パイプライン内のテキストチャンキングの重要な側面を見落としていることがよくあります。
このペーパーでは、最初に、境界の明確さと塊の粘着性を含む二重計測評価方法を紹介し、チャンキング品質の直接的な定量化を可能にします。
この評価方法を活用して、複雑なコンテキストニュアンスを処理する際の従来の意味塊およびセマンティックチャンキングの固有の制限を強調し、それによってLLMをチャンキングプロセスに統合する必要性を実証します。
LLMベースのアプローチにおける計算効率とチャンキング精度の間の固有のトレードオフに対処するために、3段階の処理メカニズムで構成される粒度を意識した混合物(MOC)フレームワークを考案します。
特に、私たちの目的は、チャンキングの正規表現の構造化されたリストの生成に向けてチャンカーを導くことです。これは、元のテキストからチャンクを抽出するために採用されます。
広範な実験は、提案された指標とMOCフレームワークの両方がチャンクタスクの課題を効果的に解決し、RAGシステムのパフォーマンスを向上させながらチャンキングカーネルを明らかにすることを示しています。

要約(オリジナル)

Retrieval-Augmented Generation (RAG), while serving as a viable complement to large language models (LLMs), often overlooks the crucial aspect of text chunking within its pipeline. This paper initially introduces a dual-metric evaluation method, comprising Boundary Clarity and Chunk Stickiness, to enable the direct quantification of chunking quality. Leveraging this assessment method, we highlight the inherent limitations of traditional and semantic chunking in handling complex contextual nuances, thereby substantiating the necessity of integrating LLMs into chunking process. To address the inherent trade-off between computational efficiency and chunking precision in LLM-based approaches, we devise the granularity-aware Mixture-of-Chunkers (MoC) framework, which consists of a three-stage processing mechanism. Notably, our objective is to guide the chunker towards generating a structured list of chunking regular expressions, which are subsequently employed to extract chunks from the original text. Extensive experiments demonstrate that both our proposed metrics and the MoC framework effectively settle challenges of the chunking task, revealing the chunking kernel while enhancing the performance of the RAG system.

arxiv情報

著者 Jihao Zhao,Zhiyuan Ji,Zhaoxin Fan,Hanyu Wang,Simin Niu,Bo Tang,Feiyu Xiong,Zhiyu Li
発行日 2025-03-12 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク