Exploring Training and Inference Scaling Laws in Generative Retrieval

要約

生成検索は、大規模な言語モデル(LLM)を活用してドキュメント識別子を自動化するように生成する新しいパラダイムとして浮上しています。
有望ですが、そのパフォーマンスとスケーラビリティを支えるメカニズムはほとんど不明のままです。
モデルサイズ、トレーニングデータスケール、および推論時間計算が共同で検索パフォーマンスにどのように影響するかを調査し、生成的検索でトレーニングと推論のスケーリング法の体系的な調査を実施します。
適切なメトリックの欠如に対処するために、対照的なエントロピーと生成の損失に触発された新しい評価尺度を提案し、多様な生成検索方法全体で堅牢な比較を可能にする連続性パフォーマンスシグナルを提供します。
私たちの実験は、N-GRAMベースの方法が、特により大きなLLMとペアになった場合、トレーニングと推論の両方のスケーリング法との強い整合性を示していることを示しています。
さらに、推論計算を増やすと大幅なパフォーマンスが得られ、生成的検索が推論での計算予算の増加から大幅に恩恵を受けることができることが明らかになります。
これらの設定全体で、llamaモデルは一貫してT5モデルを上回り、生成検索におけるより大きなデコーダーのみのモデルに特別な利点を示唆しています。
まとめると、モデルのサイズ、データの可用性、および推論計算が相互作用して生成検索の最大限のロックを解除し、将来のシステムを設計および最適化するための新しい洞察を提供することを強調しています。

要約(オリジナル)

Generative retrieval has emerged as a novel paradigm that leverages large language models (LLMs) to autoregressively generate document identifiers. Although promising, the mechanisms that underpin its performance and scalability remain largely unclear. We conduct a systematic investigation of training and inference scaling laws in generative retrieval, exploring how model size, training data scale, and inference-time compute jointly influence retrieval performance. To address the lack of suitable metrics, we propose a novel evaluation measure inspired by contrastive entropy and generation loss, providing a continuous performance signal that enables robust comparisons across diverse generative retrieval methods. Our experiments show that n-gram-based methods demonstrate strong alignment with both training and inference scaling laws, especially when paired with larger LLMs. Furthermore, increasing inference computation yields substantial performance gains, revealing that generative retrieval can significantly benefit from higher compute budgets at inference. Across these settings, LLaMA models consistently outperform T5 models, suggesting a particular advantage for larger decoder-only models in generative retrieval. Taken together, our findings underscore that model sizes, data availability, and inference computation interact to unlock the full potential of generative retrieval, offering new insights for designing and optimizing future systems.

arxiv情報

著者 Hongru Cai,Yongqi Li,Ruifeng Yuan,Wenjie Wang,Zhen Zhang,Wenjie Li,Tat-Seng Chua
発行日 2025-03-24 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク