要約
ニューラル モデルのスケールアップにより、さまざまなタスク、特に言語生成において大きな進歩がもたらされました。
これまでの研究では、ニューラル モデルのパフォーマンスは、トレーニング セット サイズやモデル サイズなどの要因と相関する、予測可能なスケーリング則に従うことが多いことがわかっています。
この洞察は、特に大規模な実験がますますリソースを必要とするようになっている中で、非常に貴重です。
しかし、このようなスケーリング則は、検索メトリクスの離散的な性質と、検索タスクにおけるトレーニング データとモデル サイズ間の複雑な関係により、高密度検索では十分に検討されていません。
この研究では、高密度検索モデルのパフォーマンスが他のニューラル モデルと同様にスケーリング則に従うかどうかを調査します。
評価指標として対比対数尤度を使用し、さまざまな数のパラメータで実装され、さまざまな量の注釈付きデータでトレーニングされた高密度検索モデルを使用して広範な実験を行うことを提案します。
結果は、私たちの設定では、密な検索モデルのパフォーマンスが、モデルのサイズと注釈の数に関連する正確なべき乗則スケーリングに従うことを示しています。
さらに、一般的なデータ拡張手法によるスケーリングを調査してアノテーションの品質の影響を評価し、スケーリング則を適用して予算制約の下で最適なリソース割り当て戦略を見つけます。
私たちは、これらの洞察が高密度検索モデルのスケーリング効果の理解に大きく貢献し、将来の研究活動に有意義な指針を提供すると信じています。
要約(オリジナル)
Scaling up neural models has yielded significant advancements in a wide array of tasks, particularly in language generation. Previous studies have found that the performance of neural models frequently adheres to predictable scaling laws, correlated with factors such as training set size and model size. This insight is invaluable, especially as large-scale experiments grow increasingly resource-intensive. Yet, such scaling law has not been fully explored in dense retrieval due to the discrete nature of retrieval metrics and complex relationships between training data and model sizes in retrieval tasks. In this study, we investigate whether the performance of dense retrieval models follows the scaling law as other neural models. We propose to use contrastive log-likelihood as the evaluation metric and conduct extensive experiments with dense retrieval models implemented with different numbers of parameters and trained with different amounts of annotated data. Results indicate that, under our settings, the performance of dense retrieval models follows a precise power-law scaling related to the model size and the number of annotations. Additionally, we examine scaling with prevalent data augmentation methods to assess the impact of annotation quality, and apply the scaling law to find the best resource allocation strategy under a budget constraint. We believe that these insights will significantly contribute to understanding the scaling effect of dense retrieval models and offer meaningful guidance for future research endeavors.
arxiv情報
著者 | Yan Fang,Jingtao Zhan,Qingyao Ai,Jiaxin Mao,Weihang Su,Jia Chen,Yiqun Liu |
発行日 | 2024-07-15 14:48:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google