JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources

要約

神経情報検索は、高リソース言語では急速に進歩していますが、日本語などの低リソース言語では、とりわけデータ不足によって進歩が妨げられています。
その結果、多言語モデルは、計算効率が低く、言語のニュアンスを捉えることができないにもかかわらず、日本語検索の主流となってきました。
JaColBERT のような最近のマルチベクトル単一言語モデルはこのギャップを狭めていますが、大規模な評価では依然として多言語手法に遅れをとっています。
この研究は、日本人に焦点を当て、低リソース環境におけるマルチベクターレトリバーの次善の訓練方法に取り組んでいます。
私たちは、JaColBERT の推論とトレーニング設定、およびより広範にはマルチベクトル モデルの主要な側面を体系的に評価し、改善します。
新しいチェックポイント マージ ステップを通じてパフォーマンスをさらに強化し、微調整の利点と元のチェックポイントの一般化機能を組み合わせる効果的な方法であることを示します。
私たちの分析に基づいて、新しいトレーニング レシピを導入し、JaColBERTv2.5 モデルが誕生しました。
JaColBERTv2.5 はパラメータがわずか 1 億 1,000 万で、4 つの A100 GPU で 15 時間未満でトレーニングされ、すべての一般的なベンチマークで既存のメソッドを大幅に上回り、平均スコアは 0.754 に達し、以前の最高スコアである 0.720 を大幅に上回りました。
将来の研究をサポートするために、私たちは最終モデル、中間チェックポイント、および使用されたすべてのデータを公開します。

要約(オリジナル)

Neural Information Retrieval has advanced rapidly in high-resource languages, but progress in lower-resource ones such as Japanese has been hindered by data scarcity, among other challenges. Consequently, multilingual models have dominated Japanese retrieval, despite their computational inefficiencies and inability to capture linguistic nuances. While recent multi-vector monolingual models like JaColBERT have narrowed this gap, they still lag behind multilingual methods in large-scale evaluations. This work addresses the suboptimal training methods of multi-vector retrievers in lower-resource settings, focusing on Japanese. We systematically evaluate and improve key aspects of the inference and training settings of JaColBERT, and more broadly, multi-vector models. We further enhance performance through a novel checkpoint merging step, showcasing it to be an effective way of combining the benefits of fine-tuning with the generalization capabilities of the original checkpoint. Building on our analysis, we introduce a novel training recipe, resulting in the JaColBERTv2.5 model. JaColBERTv2.5, with only 110 million parameters and trained in under 15 hours on 4 A100 GPUs, significantly outperforms all existing methods across all common benchmarks, reaching an average score of 0.754, significantly above the previous best of 0.720. To support future research, we make our final models, intermediate checkpoints and all data used publicly available.

arxiv情報

著者 Benjamin Clavié
発行日 2024-07-30 11:42:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク