要約
自然言語処理の急速な発展により、複数のタスクに対して多くの言語モデルが発明されています。
重要なタスクの1つは、関連するドキュメントを取得するためのモデルが必要な情報検索(IR)です。
多くの現実のアプリケーション、特に検索拡張生成(RAG)システムにおけるその重要性にもかかわらず、このタスクにはベトナムのベンチマークがありません。
この状況は、タスクに関する多くの既存のベトナム埋め込み言語モデルの評価と比較を引き起こし、ベトナムの自然言語処理(NLP)研究の進歩を遅らせます。
この作業では、ベトナムの研究コミュニティに情報検索の新しいベンチマークを提供することを目指しています。
さらに、ベトナムの埋め込みモデルを訓練するために使用されるインフォンセ損失関数に基づいた新しい目的関数も提示します。
私たちの機能は、情報検索タスクの起源よりも優れていることを目指しています。
最後に、テキスト埋め込みモデルのパフォーマンスに対する両方の目的関数の超パラメーターである温度の効果を分析します。
要約(オリジナル)
With the rapid development of natural language processing, many language models have been invented for multiple tasks. One important task is information retrieval (IR), which requires models to retrieve relevant documents. Despite its importance in many real-life applications, especially in retrieval augmented generation (RAG) systems, this task lacks Vietnamese benchmarks. This situation causes difficulty in assessing and comparing many existing Vietnamese embedding language models on the task and slows down the advancement of Vietnamese natural language processing (NLP) research. In this work, we aim to provide the Vietnamese research community with a new benchmark for information retrieval, which mainly focuses on retrieval and reranking tasks. Furthermore, we also present a new objective function based on the InfoNCE loss function, which is used to train our Vietnamese embedding model. Our function aims to be better than the origin in information retrieval tasks. Finally, we analyze the effect of temperature, a hyper-parameter in both objective functions, on the performance of text embedding models.
arxiv情報
著者 | Phu-Vinh Nguyen,Minh-Nam Tran,Long Nguyen,Dien Dinh |
発行日 | 2025-03-10 15:47:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google