要約
21 世紀にわたる注釈付きデータセットの開発は、深層学習の力を真に認識するのに役立ちました。
命名エンティティ認識 (NER) タスク用に作成されたデータセットのほとんどは、ドメイン固有ではありません。
金融ドメインは NER タスクに特定の課題を提示し、ドメイン固有のデータセットは金融研究の境界を押し広げるのに役立ちます。
私たちの仕事では、金融ドメイン向けの最初の高品質 NER データセットを開発しています。
データセットのベンチマークを設定するために、NER タスク用の弱い監視ベースのフレームワークを開発してテストします。
現在の弱監督フレームワークを拡張して、スパンレベルの分類に使用できるようにします。
Weakner フレームワークとデータセットは、GitHub と Hugging Face で公開されています。
要約(オリジナル)
The development of annotated datasets over the 21st century has helped us truly realize the power of deep learning. Most of the datasets created for the named-entity-recognition (NER) task are not domain specific. Finance domain presents specific challenges to the NER task and a domain specific dataset would help push the boundaries of finance research. In our work, we develop the first high-quality NER dataset for the finance domain. To set the benchmark for the dataset, we develop and test a weak-supervision-based framework for the NER task. We extend the current weak-supervision framework to make it employable for span-level classification. Our weak-ner framework and the dataset are publicly available on GitHub and Hugging Face.
arxiv情報
著者 | Agam Shah,Ruchit Vithani,Abhinav Gullapalli,Sudheer Chava |
発行日 | 2023-02-22 05:41:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google