要約
今日のペースの速い世界では、新たな出来事について包括的かつ正確な Wikipedia ドキュメントを迅速に生成するという需要が高まっており、これは極めて重要であると同時に困難でもあります。
ただし、Wikipedia 世代におけるこれまでの取り組みでは、現実世界の要件を満たすことができないことがよくありました。
完全な Wikipedia 文書のセグメントを生成することのみに焦点を当てたアプローチもあれば、生成における忠実性の重要性を見落としたり、事前トレーニング コーパスの影響を考慮していないアプローチもあります。
この論文では、Web ソースから取得した入力を使用して、緊急イベントに対して構造化された全長の Wikipedia ドキュメントが生成される現実世界のシナリオをシミュレートします。
最近発生したイベントに関連するコーパスで大規模言語モデル (LLM) がトレーニングされないようにするために、最近発生したイベントを選択し、新しいベンチマーク Wiki-GenBen を導入します。このベンチマークは、309 のイベントと、対応する検索された Web ページのペアで構成されます。
証拠を生成すること。
さらに、事実に基づく全長の Wikipedia 文書を生成する際の LLM の能力を評価するために、体系的な評価指標とベースライン手法の包括的なセットを設計します。
データとコードは WikiGenBench でオープンソース化されています。
要約(オリジナル)
In today’s fast-paced world, the growing demand to quickly generate comprehensive and accurate Wikipedia documents for emerging events is both crucial and challenging. However, previous efforts in Wikipedia generation have often fallen short of meeting real-world requirements. Some approaches focus solely on generating segments of a complete Wikipedia document, while others overlook the importance of faithfulness in generation or fail to consider the influence of the pre-training corpus. In this paper, we simulate a real-world scenario where structured full-length Wikipedia documents are generated for emergent events using input retrieved from web sources. To ensure that Large Language Models (LLMs) are not trained on corpora related to recently occurred events, we select events that have taken place recently and introduce a new benchmark Wiki-GenBen, which consists of 309 events paired with their corresponding retrieved web pages for generating evidence. Additionally, we design a comprehensive set of systematic evaluation metrics and baseline methods, to evaluate the capability of LLMs in generating factual full-length Wikipedia documents. The data and code are open-sourced at WikiGenBench.
arxiv情報
著者 | Jiebin Zhang,Eugene J. Yu,Qinyu Chen,Chenhao Xiong,Dawei Zhu,Han Qian,Mingbo Song,Xiaoguang Li,Qun Liu,Sujian Li |
発行日 | 2024-02-28 11:51:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google