Financial Numeric Extreme Labelling: A Dataset and Benchmarking for XBRL Tagging

要約

米国証券取引委員会 (SEC) は、すべての上場企業に対し、分類法に基づく特定のラベルが注釈として付けられた数字を含む定期財務諸表を提出することを義務付けています。
この論文では、非常に大規模なラベル セットから文内の特定の数値範囲にラベルを割り当てる作業を自動化するタスクを定式化します。
このタスクに向けて、2,794 個のラベルで注釈が付けられたデータセット、Financial Numeric Extreme Labeling (FNXL) をリリースします。
タスクを (a) シーケンスのラベル付け問題、および (b) スパン抽出とその後の極端な分類を伴うパイプラインとして定式化することで、FNXL データセットのパフォーマンスをベンチマークします。
2 つのアプローチのパフォーマンスは同等ですが、パイプライン ソリューションの方が、最も頻度の低いラベルに対してわずかに優れています。

要約(オリジナル)

The U.S. Securities and Exchange Commission (SEC) mandates all public companies to file periodic financial statements that should contain numerals annotated with a particular label from a taxonomy. In this paper, we formulate the task of automating the assignment of a label to a particular numeral span in a sentence from an extremely large label set. Towards this task, we release a dataset, Financial Numeric Extreme Labelling (FNXL), annotated with 2,794 labels. We benchmark the performance of the FNXL dataset by formulating the task as (a) a sequence labelling problem and (b) a pipeline with span extraction followed by Extreme Classification. Although the two approaches perform comparably, the pipeline solution provides a slight edge for the least frequent labels.

arxiv情報

著者 Soumya Sharma,Subhendu Khatuya,Manjunath Hegde,Afreen Shaikh. Koustuv Dasgupta,Pawan Goyal,Niloy Ganguly
発行日 2023-06-06 14:41:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL パーマリンク