CO-Fun: A German Dataset on Company Outsourcing in Fund Prospectuses for Named Entity Recognition and Relation Extraction

要約

サイバー マッピングのプロセスにより、金融機関とサービス プロバイダー間の関係に関する洞察が得られます。
ドイツのファンド目論見書における企業のアウトソーシングの実践を中心に、固有表現認識および関係抽出タスク用に特別に設計されたデータセットを紹介します。
948 文のラベル付けプロセスは 3 人の専門家によって実行され、4 つのエンティティ タイプ (アウトソーシング、会社、場所、およびソフトウェア) に対して 5,969 個の注釈と、4,102 個の関係注釈 (アウトソーシング-会社、会社-場所) が得られました。
最先端の深層学習モデルは、エンティティを認識し、最初の有望な結果を示す関係を抽出するようにトレーニングされました。
データセットの匿名化バージョンは、モデルのトレーニングに使用されるガイドラインとコードとともに、https://www.dfki.uni-kl.de/cybermapping/data/CO-Fun-1.0-anonymized.zip で公開されています。

要約(オリジナル)

The process of cyber mapping gives insights in relationships among financial entities and service providers. Centered around the outsourcing practices of companies within fund prospectuses in Germany, we introduce a dataset specifically designed for named entity recognition and relation extraction tasks. The labeling process on 948 sentences was carried out by three experts which yields to 5,969 annotations for four entity types (Outsourcing, Company, Location and Software) and 4,102 relation annotations (Outsourcing-Company, Company-Location). State-of-the-art deep learning models were trained to recognize entities and extract relations showing first promising results. An anonymized version of the dataset, along with guidelines and the code used for model training, are publicly available at https://www.dfki.uni-kl.de/cybermapping/data/CO-Fun-1.0-anonymized.zip.

arxiv情報

著者 Neda Foroutan,Markus Schröder,Andreas Dengel
発行日 2024-03-22 16:17:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク