Learning Semantic Text Similarity to rank Hypernyms of Financial Terms

要約

長年にわたって、ユーザーが金融サービスにアクセスする方法にはパラダイムシフトが起きてきました。
デジタル化の進展に伴い、オンライン モードでの金融活動を好むユーザーが増えています。
これにより、膨大な量の金融コンテンツが生成されました。
ほとんどの投資家は、決定を下す前にこれらの内容を検討することを好みます。
すべての業界には、その事業分野に固有の条件があります。銀行および金融サービスも例外ではありません。
これらの内容を十分に理解するには、金融条件を十分に理解する必要があります。
用語が属する広範なカテゴリーを活用して説明されると、その用語についての基本的な概念を理解するのが容易になります。
この広範なカテゴリは上位語と呼ばれます。
たとえば、「債券」は金融用語「代替社債」の上位概念です。
この論文では、特定の金融用語の上位語を抽出してランク付けできるシステムを提案します。
このシステムは、DBpedia [4]、Investopedia、金融業界ビジネス オントロジー (FIBO)、目論見書などのさまざまなソースから取得した金融テキスト コーパスを使用してトレーニングされています。
これらの用語の埋め込みは、FinBERT [3]、FinISH [1] を使用して抽出され、SentenceBERT [54] を使用して微調整されています。
新しいアプローチを使用して、ネガティブ サンプルでトレーニング セットを強化しました。
FIBO に存在する階層を使用します。
最後に、システムのパフォーマンスを既存のパフォーマンスと比較してベンチマークします。
既存のものよりも優れたパフォーマンスを発揮し、拡張性も備えていることが確認されています。

要約(オリジナル)

Over the years, there has been a paradigm shift in how users access financial services. With the advancement of digitalization more users have been preferring the online mode of performing financial activities. This has led to the generation of a huge volume of financial content. Most investors prefer to go through these contents before making decisions. Every industry has terms that are specific to the domain it operates in. Banking and Financial Services are not an exception to this. In order to fully comprehend these contents, one needs to have a thorough understanding of the financial terms. Getting a basic idea about a term becomes easy when it is explained with the help of the broad category to which it belongs. This broad category is referred to as hypernym. For example, ‘bond’ is a hypernym of the financial term ‘alternative debenture’. In this paper, we propose a system capable of extracting and ranking hypernyms for a given financial term. The system has been trained with financial text corpora obtained from various sources like DBpedia [4], Investopedia, Financial Industry Business Ontology (FIBO), prospectus and so on. Embeddings of these terms have been extracted using FinBERT [3], FinISH [1] and fine-tuned using SentenceBERT [54]. A novel approach has been used to augment the training set with negative samples. It uses the hierarchy present in FIBO. Finally, we benchmark the system performance with that of the existing ones. We establish that it performs better than the existing ones and is also scalable.

arxiv情報

著者 Sohom Ghosh,Ankush Chopra,Sudip Kumar Naskar
発行日 2023-08-12 23:51:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク