CED: Catalog Extraction from Documents

要約

タイトル:CED:ドキュメントからカタログを抽出する

要約:
1. 長いドキュメントから、文章ごとの情報抽出は疲れる作業であり、エラーが起こりやすい。
2. カタログは、ドキュメントの骨格の指標であり、ドキュメントをセグメントに分割し、情報的なカスケード・セマンティックスを提供するため、検索スペースを減らすのに役立つ。
3. カタログは外部知識の支援がないと抽出することが難しい。
4. 特定のテンプレートに従うドキュメントには、正規表現を使ってカタログを抽出できるが、手作りヒューリスティックは異なるソースからの異なるフォーマットのドキュメントを処理する際には適用できない。
5. この問題に対処するため、Catalog Extraction from Documents(CED)タスクの最初のデータセットである大規模な手動注釈コーパスを構築した。
6. このコーパスに基づいて、私たちはドキュメントをカタログツリーにパースする遷移ベースのフレームワークを提案している。
7. 実験の結果、私たちが提案した方法はベースラインシステムを上回り、良好な転移能力を示す。
8. CEDタスクは、生のテキストセグメントと極めて長いドキュメントから情報抽出タスクとの間の隙間を埋めることができると考えられる。
9. データとコードは\url{https://github.com/Spico197/CatalogExtraction}で利用可能。

要約(オリジナル)

Sentence-by-sentence information extraction from long documents is an exhausting and error-prone task. As the indicator of document skeleton, catalogs naturally chunk documents into segments and provide informative cascade semantics, which can help to reduce the search space. Despite their usefulness, catalogs are hard to be extracted without the assist from external knowledge. For documents that adhere to a specific template, regular expressions are practical to extract catalogs. However, handcrafted heuristics are not applicable when processing documents from different sources with diverse formats. To address this problem, we build a large manually annotated corpus, which is the first dataset for the Catalog Extraction from Documents (CED) task. Based on this corpus, we propose a transition-based framework for parsing documents into catalog trees. The experimental results demonstrate that our proposed method outperforms baseline systems and shows a good ability to transfer. We believe the CED task could fill the gap between raw text segments and information extraction tasks on extremely long documents. Data and code are available at \url{https://github.com/Spico197/CatalogExtraction}

arxiv情報

著者 Tong Zhu,Guoliang Zhang,Zechang Li,Zijian Yu,Junfei Ren,Mengsong Wu,Zhefeng Wang,Baoxing Huai,Pingfu Chao,Wenliang Chen
発行日 2023-04-28 07:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク