Questions Are All You Need to Train a Dense Passage Retriever

要約

タイトル:質問だけで密度の高いパッセージリトリーバーのトレーニングが可能です。
要約:

1. ART(Autoencoding Retrieval Transformer)は、教師付きトレーニングデータ不要の密度の高いリトリーバーモデルのトレーニングに使うことができる、新しいコーパスレベルのオートエンコーディング手法です。
2. 状況別のOpen-QAなど、オープン領域のタスクで行う密度の高いリトリーバーは、通常、大規模な教師付きデータセットを必要とし、カスタムハードマイニングや良い例のノイズ除去を必要としますが、ARTはそれらを必要としません。
3. ARTは、教師なし学習を行い、質問と潜在的な回答文書など未ペアリングの入出力にアクセスする必要があります。
4. そのために、ARTは新しい文書リトリーバーオートエンコードスキームを使用し、入力質問が証拠文書を検索し、文書が元の質問を再構成できる確率が計算されます。
5. 質問再構成に基づくリトリーバーのトレーニングによって、効果的な教師なし学習が可能になり、文書エンコーダと質問エンコーダの完全なOpen QAシステムに取り込むことができ、追加の微調整なしで使うことができます。
6. 多数のQA取得ベンチマークテストでARTが最先端の結果を生み出し、教師データとタスク特有の損失関数が不要になります。また、前処理されたラングエージモデルの汎用初期化だけでトレーニングが可能です。

要約(オリジナル)

We introduce ART, a new corpus-level autoencoding approach for training dense retrieval models that does not require any labeled training data. Dense retrieval is a central challenge for open-domain tasks, such as Open QA, where state-of-the-art methods typically require large supervised datasets with custom hard-negative mining and denoising of positive examples. ART, in contrast, only requires access to unpaired inputs and outputs (e.g. questions and potential answer documents). It uses a new document-retrieval autoencoding scheme, where (1) an input question is used to retrieve a set of evidence documents, and (2) the documents are then used to compute the probability of reconstructing the original question. Training for retrieval based on question reconstruction enables effective unsupervised learning of both document and question encoders, which can be later incorporated into complete Open QA systems without any further finetuning. Extensive experiments demonstrate that ART obtains state-of-the-art results on multiple QA retrieval benchmarks with only generic initialization from a pre-trained language model, removing the need for labeled data and task-specific losses.

arxiv情報

著者 Devendra Singh Sachan,Mike Lewis,Dani Yogatama,Luke Zettlemoyer,Joelle Pineau,Manzil Zaheer
発行日 2023-04-03 00:28:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR パーマリンク