要約
検索された生成(RAG)は、外部の知識ソースに出力を接地することにより、大規模な言語モデル(LLM)を強化するための変革的アプローチとなっています。
しかし、重要な質問は続きます。LLMSの入力制約の範囲内で、どのようにして膨大な量の外部知識を効果的に管理できますか?
従来の方法は、外部ドキュメントをより小さな固定サイズのセグメントにチャンキングすることにより、これに対処します。
このアプローチは入力の制限を軽減しますが、多くの場合、コンテキストを分割し、検索が不完全になり、生成の一貫性が低下します。
これらの欠点を克服するために、グローバルなコンテキストの維持を目指して、2つの高度な技術、後期チャンキングとコンテキスト検索が導入されました。
その可能性にもかかわらず、彼らの比較強みと制限は不明のままです。
この研究では、後期チャンキングと文脈の検索に関する厳密な分析を提示し、RAGシステムの最適化における有効性と効率性を評価します。
私たちの結果は、コンテキストの検索がセマンティックコヒーレンスをより効果的に保持するが、より大きな計算リソースが必要であることを示しています。
対照的に、後期チャンキングはより高い効率を提供しますが、関連性と完全性を犠牲にする傾向があります。
要約(オリジナル)
Retrieval-augmented generation (RAG) has become a transformative approach for enhancing large language models (LLMs) by grounding their outputs in external knowledge sources. Yet, a critical question persists: how can vast volumes of external knowledge be managed effectively within the input constraints of LLMs? Traditional methods address this by chunking external documents into smaller, fixed-size segments. While this approach alleviates input limitations, it often fragments context, resulting in incomplete retrieval and diminished coherence in generation. To overcome these shortcomings, two advanced techniques, late chunking and contextual retrieval, have been introduced, both aiming to preserve global context. Despite their potential, their comparative strengths and limitations remain unclear. This study presents a rigorous analysis of late chunking and contextual retrieval, evaluating their effectiveness and efficiency in optimizing RAG systems. Our results indicate that contextual retrieval preserves semantic coherence more effectively but requires greater computational resources. In contrast, late chunking offers higher efficiency but tends to sacrifice relevance and completeness.
arxiv情報
著者 | Carlo Merola,Jaspinder Singh |
発行日 | 2025-04-28 12:52:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google