CONVERSER: Few-Shot Conversational Dense Retrieval with Synthetic Data Generation

要約

会話型検索は、情報検索 (IR) のための自然なインターフェイスを提供します。
最近のアプローチでは、会話型 IR への高密度検索の適用において有望な結果が実証されています。
ただし、デンス リトリーバーのトレーニングには、大量のドメイン内のペア データが必要です。
ドメイン内の豊富な会話は収集するのに費用がかかるため、これは会話型の密な検索の開発を妨げます。
この論文では、最大 6 つのドメイン内対話例を使用して会話型デンス リトリーバーをトレーニングするためのフレームワークである CONVERSER を提案します。
具体的には、大規模な言語モデルのコンテキスト内学習機能を利用して、検索コーパス内のパッセージを考慮して会話型クエリを生成します。
会話型検索ベンチマーク OR-QuAC および TREC CAsT 19 の実験結果は、提案された CONVERSER が完全教師ありモデルと同等のパフォーマンスを達成することを示し、少数ショットの会話型高密度検索における提案されたフレームワークの有効性を実証しています。
すべてのソース コードと生成されたデータセットは、https://github.com/MiuLab/CONVERSER で入手できます。

要約(オリジナル)

Conversational search provides a natural interface for information retrieval (IR). Recent approaches have demonstrated promising results in applying dense retrieval to conversational IR. However, training dense retrievers requires large amounts of in-domain paired data. This hinders the development of conversational dense retrievers, as abundant in-domain conversations are expensive to collect. In this paper, we propose CONVERSER, a framework for training conversational dense retrievers with at most 6 examples of in-domain dialogues. Specifically, we utilize the in-context learning capability of large language models to generate conversational queries given a passage in the retrieval corpus. Experimental results on conversational retrieval benchmarks OR-QuAC and TREC CAsT 19 show that the proposed CONVERSER achieves comparable performance to fully-supervised models, demonstrating the effectiveness of our proposed framework in few-shot conversational dense retrieval. All source code and generated datasets are available at https://github.com/MiuLab/CONVERSER

arxiv情報

著者 Chao-Wei Huang,Chen-Yu Hsu,Tsu-Yuan Hsu,Chen-An Li,Yun-Nung Chen
発行日 2023-09-13 06:40:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク