DeFine: A Decomposed and Fine-Grained Annotated Dataset for Long-form Article Generation

要約

ロングフォームの記事生成(LFAG)は、論理的な一貫性、包括的なトピックカバレッジ、および拡張記事全体の物語の一貫性を維持するなどの課題を提示します。
多くの場合、既存のデータセットには、タスクを効果的に分解するために必要な階層構造と微細に成長した注釈の両方が欠けていることが多く、その結果、浅く、組織化された記事生成が生じます。
これらの制限に対処するために、長い形式の記事生成のための分解された細かい注釈付きデータセットである定義を紹​​介します。
定義は、その階層分解戦略とドメイン固有の知識とマルチレベルの注釈との統合によって特徴付けられ、記事生成の粒状制御と深さの強化が保証されます。
データセットを構築するために、マルチエージェントコラボレーションパイプラインが提案されています。これは、生成プロセスを4つの部分に体系的にセグメント化します:データマイナー、Qute Retreiver、Q&Aアノテーター、およびデータクリーナー。
定義の有効性を検証するために、Web検索、ローカル検索、および接地された参照の3つのLFAGベースラインを設計およびテストしました。
定義トレーニングデータセットを使用して、QWEN2-7B-Instructモデルを微調整しました。
実験結果は、特にトピックのカバレッジ、情報の深さ、およびコンテンツの忠実度のテキスト品質の大幅な改善を示しました。
将来の研究を促進するために、私たちのデータセットが公開されています。

要約(オリジナル)

Long-form article generation (LFAG) presents challenges such as maintaining logical consistency, comprehensive topic coverage, and narrative coherence across extended articles. Existing datasets often lack both the hierarchical structure and fine-grained annotation needed to effectively decompose tasks, resulting in shallow, disorganized article generation. To address these limitations, we introduce DeFine, a Decomposed and Fine-grained annotated dataset for long-form article generation. DeFine is characterized by its hierarchical decomposition strategy and the integration of domain-specific knowledge with multi-level annotations, ensuring granular control and enhanced depth in article generation. To construct the dataset, a multi-agent collaborative pipeline is proposed, which systematically segments the generation process into four parts: Data Miner, Cite Retreiver, Q&A Annotator and Data Cleaner. To validate the effectiveness of DeFine, we designed and tested three LFAG baselines: the web retrieval, the local retrieval, and the grounded reference. We fine-tuned the Qwen2-7b-Instruct model using the DeFine training dataset. The experimental results showed significant improvements in text quality, specifically in topic coverage, depth of information, and content fidelity. Our dataset publicly available to facilitate future research.

arxiv情報

著者 Ming Wang,Fang Wang,Minghao Hu,Li He,Haiyang Wang,Jun Zhang,Tianwei Yan,Li Li,Zhunchen Luo,Wei Luo,Xiaoying Bai,Guotong Geng
発行日 2025-03-10 10:48:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク