要約
大規模言語モデル(LLM)は、高密度検索器として微調整されながら、強力な有効性と頑健性を実証してきた。しかし、LLMはパラメータサイズが大きいため、大規模なコーパスのエンコーディングコストが高く、クエリの待ち時間が長くなるなど、推論時間の計算量に大きな問題があり、実用的な導入が制限されている。小さい検索器は効率が良い反面、限られた教師付き微調整データでは効果的に汎化できないことが多い。本論文では、LLMを活用して、より小さな汎化可能な密な検索器を学習する学習フレームワークであるDRAMAを紹介する。特に、刈り込まれたLLMをバックボーンとして採用し、LLMで補強された多様なデータを用いて一段階の対照学習セットアップで学習を行う。実験によれば、DRAMAは従来のエンコーダベースの検索器よりも優れた多言語・ロングコンテクスト機能を提供し、複数のタスクや言語にわたって高い性能を達成する。これらの結果は、効率性と汎化性のギャップを埋めるために、より小さな検索器の訓練とLLMの進歩を結びつける可能性を強調している。
要約(オリジナル)
Large language models (LLMs) have demonstrated strong effectiveness and robustness while fine-tuned as dense retrievers. However, their large parameter size brings significant inference time computational challenges, including high encoding costs for large-scale corpora and increased query latency, limiting their practical deployment. While smaller retrievers offer better efficiency, they often fail to generalize effectively with limited supervised fine-tuning data. In this work, we introduce DRAMA, a training framework that leverages LLMs to train smaller generalizable dense retrievers. In particular, we adopt pruned LLMs as the backbone and train on diverse LLM-augmented data in a single-stage contrastive learning setup. Experiments show that DRAMA offers better multilingual and long-context capabilities than traditional encoder-based retrievers, and achieves strong performance across multiple tasks and languages. These highlight the potential of connecting the training of smaller retrievers with the growing advancements in LLMs, bridging the gap between efficiency and generalization.
arxiv情報
著者 | Xueguang Ma,Xi Victoria Lin,Barlas Oguz,Jimmy Lin,Wen-tau Yih,Xilun Chen |
発行日 | 2025-06-03 17:47:36+00:00 |
arxivサイト | arxiv_id(pdf) |