要約
会話型検索は、情報検索 (IR) のための自然なインターフェイスを提供します。
最近のアプローチでは、会話型 IR への高密度検索の適用において有望な結果が実証されています。
ただし、デンス リトリーバーのトレーニングには、大量のドメイン内のペア データが必要です。
ドメイン内の豊富な会話は収集するのに費用がかかるため、これは会話型の密な検索の開発を妨げます。
この論文では、最大 6 つのドメイン内対話例を使用して会話型デンス リトリーバーをトレーニングするためのフレームワークである CONVERSER を提案します。
具体的には、大規模な言語モデルのコンテキスト内学習機能を利用して、検索コーパス内のパッセージを考慮して会話型クエリを生成します。
会話型検索ベンチマーク OR-QuAC および TREC CAsT 19 の実験結果は、提案された CONVERSER が完全教師ありモデルと同等のパフォーマンスを達成することを示し、少数ショットの会話型高密度検索における提案されたフレームワークの有効性を実証しています。
すべてのソース コードと生成されたデータセットは、https://github.com/MiuLab/CONVERSER で入手できます。
要約(オリジナル)
Conversational search provides a natural interface for information retrieval (IR). Recent approaches have demonstrated promising results in applying dense retrieval to conversational IR. However, training dense retrievers requires large amounts of in-domain paired data. This hinders the development of conversational dense retrievers, as abundant in-domain conversations are expensive to collect. In this paper, we propose CONVERSER, a framework for training conversational dense retrievers with at most 6 examples of in-domain dialogues. Specifically, we utilize the in-context learning capability of large language models to generate conversational queries given a passage in the retrieval corpus. Experimental results on conversational retrieval benchmarks OR-QuAC and TREC CAsT 19 show that the proposed CONVERSER achieves comparable performance to fully-supervised models, demonstrating the effectiveness of our proposed framework in few-shot conversational dense retrieval. All source code and generated datasets are available at https://github.com/MiuLab/CONVERSER
arxiv情報
著者 | Chao-Wei Huang,Chen-Yu Hsu,Tsu-Yuan Hsu,Chen-An Li,Yun-Nung Chen |
発行日 | 2023-09-13 06:40:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google