PISCO: Pretty Simple Compression for Retrieval-Augmented Generation

要約

検索された生成(RAG)パイプラインは、関連するドキュメントを取得することにより、大規模な言語モデル(LLM)を強化しますが、高推進コストとコンテキストサイズが限られているため、スケーラビリティの問題に直面しています。
ドキュメント圧縮は実用的なソリューションですが、現在のソフト圧縮方法は精度損失に悩まされ、広範な前orainingが必要です。
この論文では、多様なぼろきれベースの質問回答(QA)タスク全体で最小限の精度損失(0〜3%)で16倍の圧縮率を達成する新しい方法であるPiscoを紹介します。
既存のアプローチとは異なり、Piscoは、ドキュメントベースの質問からのシーケンスレベルの知識の蒸留のみに依存することに依存して、事前トレーニングまたは注釈付きデータを必要としません。
Piscoは、1つのA100 GPUで48時間で7-10B LLMを微調整する機能を備えているため、非常に効率的でスケーラブルなソリューションを提供します。
Piscoが既存の圧縮モデルを8%精度よりも優れていることを示す包括的な実験を提示します。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) pipelines enhance Large Language Models (LLMs) by retrieving relevant documents, but they face scalability issues due to high inference costs and limited context size. Document compression is a practical solution, but current soft compression methods suffer from accuracy losses and require extensive pretraining. In this paper, we introduce PISCO, a novel method that achieves a 16x compression rate with minimal accuracy loss (0-3%) across diverse RAG-based question-answering (QA) tasks. Unlike existing approaches, PISCO requires no pretraining or annotated data, relying solely on sequence-level knowledge distillation from document-based questions. With the ability to fine-tune a 7-10B LLM in 48 hours on a single A100 GPU, PISCO offers a highly efficient and scalable solution. We present comprehensive experiments showing that PISCO outperforms existing compression models by 8% in accuracy.

arxiv情報

著者 Maxime Louis,Hervé Déjean,Stéphane Clinchant
発行日 2025-01-27 14:26:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク