WebCPM: Interactive Web Search for Chinese Long-form Question Answering

要約

長文質問応答(LFQA)は、複雑で自由形式の質問に対して、パラグラフ長の詳細な回答で答えることを目的としている。LFQAのデファクトパラダイムでは、関連する裏付けとなる事実を検索する情報検索と、これらの事実を首尾一貫した回答に統合する情報統合の2つの手続きが必要である。本論文では、中国初のLFQAデータセットであるWebCPMを紹介する。WebCPMの特徴は、情報検索が、リアルタイムで検索エンジンに関与するインタラクティブなウェブ検索に基づくことである。WebGPTに続き、Web検索インタフェースを開発する。アノテーターを募集し、このインターフェイスを使って関連情報を検索し、質問に回答してもらう。その間、アノテーターのウェブ検索行動は記録される。合計で、5,500の高品質な質問と回答のペア、14,315の裏付け事実、121,330のウェブ検索アクションを収集することができます。そして、事前に学習させた言語モデルを微調整して、人間のウェブ検索行動を模倣し、収集した事実に基づいて回答を生成する。これらの微調整されたモデルに基づいて構築されたLFQAパイプラインは、我々のデータセットとDuReaderにおいて、それぞれ32.5%と47.5%のケースで、人間が書いた回答に劣らない回答を生成しました。

要約(オリジナル)

Long-form question answering (LFQA) aims at answering complex, open-ended questions with detailed, paragraph-length responses. The de facto paradigm of LFQA necessitates two procedures: information retrieval, which searches for relevant supporting facts, and information synthesis, which integrates these facts into a coherent answer. In this paper, we introduce WebCPM, the first Chinese LFQA dataset. One unique feature of WebCPM is that its information retrieval is based on interactive web search, which engages with a search engine in real time. Following WebGPT, we develop a web search interface. We recruit annotators to search for relevant information using our interface and then answer questions. Meanwhile, the web search behaviors of our annotators would be recorded. In total, we collect 5,500 high-quality question-answer pairs, together with 14,315 supporting facts and 121,330 web search actions. We fine-tune pre-trained language models to imitate human behaviors for web search and to generate answers based on the collected facts. Our LFQA pipeline, built on these fine-tuned models, generates answers that are no worse than human-written ones in 32.5% and 47.5% of the cases on our dataset and DuReader, respectively.

arxiv情報

著者 Yujia Qin,Zihan Cai,Dian Jin,Lan Yan,Shihao Liang,Kunlun Zhu,Yankai Lin,Xu Han,Ning Ding,Huadong Wang,Ruobing Xie,Fanchao Qi,Zhiyuan Liu,Maosong Sun,Jie Zhou
発行日 2023-05-11 14:47:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク