要約
タイトル:WebBrain:大規模なWebコーパスに基づいて事実に基づく記事を生成するための学習
要約:
– WebBrainという新しいNLPタスクを紹介する(クエリに関する参考文献からサポートする証拠を探すことによって)。WebBrainでは、ウィキペディアに見られない事実に関するクエリに対して、流暢で情報量が多く、事実に基づく短い記事(ウィキペディア記事など)を生成することが最終目標である。
– WebBrainでの実験を可能にするために、英語のウィキペディア記事とそのクローラブルなウィキペディア参照を抽出して、WebBrain-Rawという大規模なデータセットを作成した。WebBrain-Rawは、これまでに存在した最大のデータセットの10倍のサイズで、研究コミュニティに大きな利益をもたらす可能性がある。
– WebBrain-Rawから、インドメインの回収装置とジェネレーターをトレーニングするために使用される2つのタスク特定のデータセット、WebBrain-RとWebBrain-Gを構築した。
– さらに、WebBrainでの現在の最先端のNLP技術のパフォーマンスを実証的に分析し、改善された証拠の回収とタスク特有の事前トレーニングによって事実性を高める新しいフレームワークReGenを紹介した。
– 実験結果は、ReGenが全ての基準を自動的に超越し、人間による評価でもすべてのベースラインを上回ることを示している。
要約(オリジナル)
In this paper, we introduce a new NLP task — generating short factual articles with references for queries by mining supporting evidence from the Web. In this task, called WebBrain, the ultimate goal is to generate a fluent, informative, and factually-correct short article (e.g., a Wikipedia article) for a factual query unseen in Wikipedia. To enable experiments on WebBrain, we construct a large-scale dataset WebBrain-Raw by extracting English Wikipedia articles and their crawlable Wikipedia references. WebBrain-Raw is ten times larger than the previous biggest peer dataset, which can greatly benefit the research community. From WebBrain-Raw, we construct two task-specific datasets: WebBrain-R and WebBrain-G, which are used to train in-domain retriever and generator, respectively. Besides, we empirically analyze the performances of the current state-of-the-art NLP techniques on WebBrain and introduce a new framework ReGen, which enhances the generation factualness by improved evidence retrieval and task-specific pre-training for generation. Experiment results show that ReGen outperforms all baselines in both automatic and human evaluations.
arxiv情報
著者 | Hongjing Qian,Yutao Zhu,Zhicheng Dou,Haoqi Gu,Xinyu Zhang,Zheng Liu,Ruofei Lai,Zhao Cao,Jian-Yun Nie,Ji-Rong Wen |
発行日 | 2023-04-10 02:55:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI