要約
科学文献レビューの生成は、豊富な参考論文のコレクションから重要な情報を抽出して整理し、明確で論理的な階層を欠いたまま、対応するレビューを作成することを目的としています。
高品質のカタログに基づいた生成プロセスにより、この問題が効果的に軽減されることがわかりました。
したがって、レビュー生成の最初のステップとして、文献レビューのための階層カタログ生成というアトミックでやりがいのあるタスクを提示します。このタスクは、さまざまな参考文献を与えられたレビュー論文の階層カタログを作成することを目的としています。
7.6k の文献レビュー カタログと 389k の参考論文を使用して、新しい英語の文献レビューの階層カタログ データセットを構築します。
モデルのパフォーマンスを正確に評価するために、セマンティクスと構造からの情報提供性とグラウンド トゥルースとの類似性に関する 2 つの評価指標を設計します。当社の広範な分析により、データセットの高品質と評価指標の有効性が検証されます。
さらに、BART などの最先端の要約モデルや ChatGPT などの大規模言語モデルに関するさまざまな実験をベンチマークして、その機能を評価します。
今後の研究を動機付けるために、このタスクの潜在的な方向性についてさらに議論します。
要約(オリジナル)
Scientific literature review generation aims to extract and organize important information from an abundant collection of reference papers and produces corresponding reviews while lacking a clear and logical hierarchy. We observe that a high-quality catalogue-guided generation process can effectively alleviate this problem. Therefore, we present an atomic and challenging task named Hierarchical Catalogue Generation for Literature Review as the first step for review generation, which aims to produce a hierarchical catalogue of a review paper given various references. We construct a novel English Hierarchical Catalogues of Literature Reviews Dataset with 7.6k literature review catalogues and 389k reference papers. To accurately assess the model performance, we design two evaluation metrics for informativeness and similarity to ground truth from semantics and structure.Our extensive analyses verify the high quality of our dataset and the effectiveness of our evaluation metrics. We further benchmark diverse experiments on state-of-the-art summarization models like BART and large language models like ChatGPT to evaluate their capabilities. We further discuss potential directions for this task to motivate future research.
arxiv情報
著者 | Kun Zhu,Xiaocheng Feng,Xiachong Feng,Yingsheng Wu,Bing Qin |
発行日 | 2023-11-17 02:08:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google