要約
ソース ドメインでトレーニングされた関係抽出モデルは、関係セット間の不一致のため、別のターゲット ドメインに適用できません。
現在の文献には、金融ドメインに特化した広範なオープンソースの関係抽出データセットはありません。
この論文では、金融ニュースと金融分野の関係を含む収益通話トランスクリプトから厳選された関係抽出データセットである FinRED をリリースします。
FinRED は、距離監視手法を使用して Wikidata トリプレットをマッピングすることによって作成されました。
適切な評価を確保するために、テスト データに手動で注釈を付けます。
また、ベンチマークを作成するために、このデータセットでさまざまな最先端の関係抽出モデルを実験します。
一般的な関係抽出データセットと比較して、FinRED でのパフォーマンスが大幅に低下していることがわかり、財務関係抽出にはより優れたモデルが必要であることがわかります。
要約(オリジナル)
Relation extraction models trained on a source domain cannot be applied on a different target domain due to the mismatch between relation sets. In the current literature, there is no extensive open-source relation extraction dataset specific to the finance domain. In this paper, we release FinRED, a relation extraction dataset curated from financial news and earning call transcripts containing relations from the finance domain. FinRED has been created by mapping Wikidata triplets using distance supervision method. We manually annotate the test data to ensure proper evaluation. We also experiment with various state-of-the-art relation extraction models on this dataset to create the benchmark. We see a significant drop in their performance on FinRED compared to the general relation extraction datasets which tells that we need better models for financial relation extraction.
arxiv情報
著者 | Soumya Sharma,Tapas Nayak,Arusarka Bose,Ajay Kumar Meena,Koustuv Dasgupta,Niloy Ganguly,Pawan Goyal |
発行日 | 2023-06-06 14:52:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google