InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval

要約

InPars は最近、情報検索タスクで大規模言語モデル (LLM) を効率的に使用する方法を導入しました。いくつかのショットの例を介して、LLM はドキュメントに関連するクエリを生成するように誘導されます。
次に、これらの合成クエリとドキュメントのペアを使用して、レトリーバーをトレーニングできます。
ただし、InPars と、最近では Promptagator は、GPT-3 や FLAN などの独自の LLM に依存して、そのようなデータセットを生成しています。
この作業では、オープンソースの LLM と既存の強力なリランカーを使用してトレーニング用の合成クエリとドキュメントのペアを選択するデータセット ジェネレーターである InPars-v2 を紹介します。
シンプルな BM25 検索パイプラインと、それに続く InPars-v2 データで微調整された monoT5 リランカーにより、BEIR ベンチマークで新しい最先端の結果が得られます。
研究者が私たちの方法をさらに改善できるように、コード、合成データ、および微調整されたモデルをオープン ソース化します: https://github.com/zetaalphavector/inPars/tree/master/tpu

要約(オリジナル)

Recently, InPars introduced a method to efficiently use large language models (LLMs) in information retrieval tasks: via few-shot examples, an LLM is induced to generate relevant queries for documents. These synthetic query-document pairs can then be used to train a retriever. However, InPars and, more recently, Promptagator, rely on proprietary LLMs such as GPT-3 and FLAN to generate such datasets. In this work we introduce InPars-v2, a dataset generator that uses open-source LLMs and existing powerful rerankers to select synthetic query-document pairs for training. A simple BM25 retrieval pipeline followed by a monoT5 reranker finetuned on InPars-v2 data achieves new state-of-the-art results on the BEIR benchmark. To allow researchers to further improve our method, we open source the code, synthetic data, and finetuned models: https://github.com/zetaalphavector/inPars/tree/master/tpu

arxiv情報

著者 Vitor Jeronymo,Luiz Bonifacio,Hugo Abonizio,Marzieh Fadaee,Roberto Lotufo,Jakub Zavrel,Rodrigo Nogueira
発行日 2023-02-23 13:58:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク