要約
大規模な言語モデル(LLM)は、情報検索の関連性評価に広く使用されています。
ただし、我々の研究では、2つの異なる小さな言語モデル(SLM)と異なるアーキテクチャを組み合わせることで、このタスクでLLMを上回ることができることが示されています。
私たちのアプローチ – qupid-は、生成的SLMを埋め込みベースのSLMと統合し、最先端のLLMソリューションと比較して計算コストを削減しながら、より高い関連性の判断精度を達成します。
この計算効率により、実際の検索システムが毎日何百万ものクエリを処理するために、QUPIDは非常にスケーラブルになります。
多様なドキュメントタイプの実験では、私たちの方法では、60倍高速な推論時間を提供しながら、一貫したパフォーマンスの改善(リーディングLLMの0.646対0.387)を実証しました。
さらに、生産検索パイプラインに統合された場合、QUPIDはNDCG@5スコアを1.9%改善しました。
これらの調査結果は、モデルの組み合わせにおけるアーキテクチャの多様性が、情報検索システムの検索関連と運用効率の両方を大幅に向上させる方法を強調しています。
要約(オリジナル)
Large language models (LLMs) have been widely used for relevance assessment in information retrieval. However, our study demonstrates that combining two distinct small language models (SLMs) with different architectures can outperform LLMs in this task. Our approach — QUPID — integrates a generative SLM with an embedding-based SLM, achieving higher relevance judgment accuracy while reducing computational costs compared to state-of-the-art LLM solutions. This computational efficiency makes QUPID highly scalable for real-world search systems processing millions of queries daily. In experiments across diverse document types, our method demonstrated consistent performance improvements (Cohen’s Kappa of 0.646 versus 0.387 for leading LLMs) while offering 60x faster inference times. Furthermore, when integrated into production search pipelines, QUPID improved nDCG@5 scores by 1.9%. These findings underscore how architectural diversity in model combinations can significantly enhance both search relevance and operational efficiency in information retrieval systems.
arxiv情報
著者 | Ohjoon Kwon,Changsu Lee,Jihye Back,Lim Sun Suk,Inho Kang,Donghyeon Jeon |
発行日 | 2025-05-12 08:35:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google