DiSCo Meets LLMs: A Unified Approach for Sparse Retrieval and Contextual Distillation in Conversational Search

要約

会話検索 (CS) は、検索と会話コンテキスト モデリングを組み合わせて、会話コンテキスト内のコーパスから関連文書を取得するタスクです。
大規模言語モデル (LLM) の爆発的な増加に伴い、CS 分野では、LLM がユーザー クエリを書き換えて会話のコンテキストを考慮することで大幅な改善が見られました。
ただし、推論時に LLM を使用すると効率が損なわれます。
現在の方法では、人間が書き換えたクエリから埋め込みを抽出してコンテキスト モデリング タスクを学習することで、この問題に対処しています。
しかし、これらのアプローチは主にコンテキスト モデリングに焦点を当てており、蒸留に依存しない損失項内の検索タスクの対照的な要素のみを扱います。
これらの制限に対処するために、以前の目的の緩和として、検索とコンテキスト モデリングを統合する新しい蒸留方法を提案します。
表現学習のみに依存するのではなく、会話とドキュメント間の類似性スコアを抽出することで、既存のトレーニング目標を緩和します。
私たちが提案する蒸留の目的により、表現空間の自由度が高まり、文書の関連性の対照的な性質が活用されます。
5 つの CS データセットにわたる学習済みスパース検索 (LSR) の実験を通じて、私たちのアプローチは、ドメイン内とドメイン外の両方の検索パフォーマンスが大幅に向上し、再現率が最大 6 ポイント向上し、最新技術を上回るパフォーマンスを示しました。
ドメイン外のデータセットの場合。
さらに、目的の緩和を通じて、複数の LLM を教師として使用し、追加の利益をもたらし、ドメイン内実験で教師自身を上回るパフォーマンスを発揮する、マルチ教師蒸留を提案します。
最後に、モデルのスパース性を分析すると、この蒸留により、トレーニングされたモデルのスパース性をより適切に制御できることがわかります。

要約(オリジナル)

Conversational Search (CS) is the task of retrieving relevant documents from a corpus within a conversational context, combining retrieval with conversational context modeling. With the explosion of Large Language Models (LLMs), the CS field has seen major improvements with LLMs rewriting user queries, accounting for conversational context. However, engaging LLMs at inference time harms efficiency. Current methods address this by distilling embeddings from human-rewritten queries to learn the context modeling task. Yet, these approaches predominantly focus on context modeling, and only treat the contrastive component of the retrieval task within a distillation-independent loss term. To address these limitations, we propose a new distillation method, as a relaxation of the previous objective, unifying retrieval and context modeling. We relax the existing training objectives by distilling similarity scores between conversations and documents, rather than relying solely on representation learning. Our proposed distillation objective allows for more freedom in the representation space and leverages the contrastive nature of document relevance. Through experiments on Learned Sparse Retrieval (LSR) across 5 CS datasets, our approach demonstrates substantial improvements in both in-domain and out-of-domain retrieval performance, outperforming state-of-the-art with gains of up to 6 points in recall for out-of-domain datasets. Additionally, through the relaxation of the objective, we propose a multi-teacher distillation, using multiple LLMs as teachers, yielding additional gains, and outperforming the teachers themselves in in-domain experiments. Finally, analysis of the sparsity of the models reveals that our distillation allows for better control over the sparsity of the trained models.

arxiv情報

著者 Simon Lupart,Mohammad Aliannejadi,Evangelos Kanoulas
発行日 2024-10-18 17:03:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク