SilverRetriever: Advancing Neural Passage Retrieval for Polish Question Answering

要約

最新のオープンドメイン質問応答システムは、多くの場合、質問に答えるために必要な事実を含む文章を見つけるために、正確かつ効率的な検索コンポーネントに依存しています。
最近、ニューラル レトリバーは、その優れたパフォーマンスにより、語彙代替手段よりも人気が高まっています。
ただし、仕事のほとんどは英語や中国語などの一般的な言語に関するものです。
ポーランド語など、その他のモデルについては、利用できるモデルがほとんどありません。
この研究では、手動または弱くラベル付けされたデータセットの多様なコレクションでトレーニングされたポーランド語用の​​ニューラル レトリバーである SilverRetriever を紹介します。
SilverRetriever は、他のポーランド語モデルよりもはるかに優れた結果を達成し、大規模な多言語モデルと競合します。
このモデルとともに、5 つの新しいパッセージ検索データセットをオープンソース化します。

要約(オリジナル)

Modern open-domain question answering systems often rely on accurate and efficient retrieval components to find passages containing the facts necessary to answer the question. Recently, neural retrievers have gained popularity over lexical alternatives due to their superior performance. However, most of the work concerns popular languages such as English or Chinese. For others, such as Polish, few models are available. In this work, we present SilverRetriever, a neural retriever for Polish trained on a diverse collection of manually or weakly labeled datasets. SilverRetriever achieves much better results than other Polish models and is competitive with larger multilingual models. Together with the model, we open-source five new passage retrieval datasets.

arxiv情報

著者 Piotr Rybak,Maciej Ogrodniczuk
発行日 2023-09-15 15:19:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク