Enhancing Model Performance in Multilingual Information Retrieval with Comprehensive Data Engineering Techniques

要約

このホワイト ペーパーでは、WSDM CUP 2023\footnote{https://project-miracl.github.io/} の連続した言語 (Miracl) の課題に対する多言語情報検索のソリューションを紹介します。
私たちのソリューションは、MRACL データセットを使用して事前トレーニング済みの多言語変換ベースのモデルを微調整するランキング ステージの強化に重点を置いています。
私たちのモデルの改善は、主に、追加の関連トレーニング データの収集、データ拡張、ネガティブ サンプリングなど、さまざまなデータ エンジニアリング手法によって達成されます。
当社の微調整されたモデルは、クエリとドキュメント間の意味的な関連性を効果的に判断し、多言語情報検索プロセスの効率を大幅に向上させます。
最後に、私たちのチームは、この挑戦​​的な競争で目覚ましい結果を達成できたことをうれしく思います。Surprise-Languages トラックで 0.835 のスコアで 2 位、Known-Languages トラックで 16 の平均 nDCG@10 スコアで 0.716 で 3 位を獲得しました。
最終リーダーボードの既知の言語。

要約(オリジナル)

In this paper, we present our solution to the Multilingual Information Retrieval Across a Continuum of Languages (MIRACL) challenge of WSDM CUP 2023\footnote{https://project-miracl.github.io/}. Our solution focuses on enhancing the ranking stage, where we fine-tune pre-trained multilingual transformer-based models with MIRACL dataset. Our model improvement is mainly achieved through diverse data engineering techniques, including the collection of additional relevant training data, data augmentation, and negative sampling. Our fine-tuned model effectively determines the semantic relevance between queries and documents, resulting in a significant improvement in the efficiency of the multilingual information retrieval process. Finally, Our team is pleased to achieve remarkable results in this challenging competition, securing 2nd place in the Surprise-Languages track with a score of 0.835 and 3rd place in the Known-Languages track with an average nDCG@10 score of 0.716 across the 16 known languages on the final leaderboard.

arxiv情報

著者 Qi Zhang,Zijian Yang,Yilun Huang,Ze Chen,Zijian Cai,Kangxu Wang,Jiewen Zheng,Jiarong He,Jin Gao
発行日 2023-02-14 12:37:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク