A Scalable Framework for Table of Contents Extraction from Complex ESG Annual Reports

要約

目次 (ToC) の抽出は、ドキュメントを階層的に構造化することに重点を置いています。
この論文では、2001 年から 2022 年までの 563 社の 1,093 件の ESG 年次報告書からなる新しいデータセット ESGDoc を提案します。これらの報告書は、その構造が多様で長大であるため、重大な課題を引き起こしています。
これらの課題に対処するために、我々は、次の 3 つのステップから構成される Toc 抽出の新しいフレームワークを提案します。(1) 読み上げ順序とフォント サイズに基づいてテキスト ブロックの初期ツリーを構築します。
(2) ノード中心のサブツリーに取り込まれたコンテキスト情報を考慮して、各ツリー ノード (またはテキスト ブロック) を独立してモデル化します。
(3) 各ツリー ノードに対して適切なアクション (保持、削除、または移動) を実行して、元のツリーを変更します。
この構築-モデリング-修正 (CMM) プロセスには、いくつかの利点があります。
これにより、以前のアプローチのようにセクション見出しをペアごとにモデリングする必要がなくなり、文書のセグメント化が実質的に可能になります。
構造化された情報を組み込むことにより、各セクションの見出しは、それ自体に関連するローカルおよび長距離の両方のコンテキストを活用できます。
実験結果は、私たちのアプローチが以前の最先端のベースラインよりもわずかな実行時間で優れていることを示しています。
私たちのフレームワークは、あらゆる長さのドキュメントを効果的に処理することで、そのスケーラビリティを証明しています。

要約(オリジナル)

Table of contents (ToC) extraction centres on structuring documents in a hierarchical manner. In this paper, we propose a new dataset, ESGDoc, comprising 1,093 ESG annual reports from 563 companies spanning from 2001 to 2022. These reports pose significant challenges due to their diverse structures and extensive length. To address these challenges, we propose a new framework for Toc extraction, consisting of three steps: (1) Constructing an initial tree of text blocks based on reading order and font sizes; (2) Modelling each tree node (or text block) independently by considering its contextual information captured in node-centric subtree; (3) Modifying the original tree by taking appropriate action on each tree node (Keep, Delete, or Move). This construction-modelling-modification (CMM) process offers several benefits. It eliminates the need for pairwise modelling of section headings as in previous approaches, making document segmentation practically feasible. By incorporating structured information, each section heading can leverage both local and long-distance context relevant to itself. Experimental results show that our approach outperforms the previous state-of-the-art baseline with a fraction of running time. Our framework proves its scalability by effectively handling documents of any length.

arxiv情報

著者 Xinyu Wang,Lin Gui,Yulan He
発行日 2023-10-27 11:40:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク