Greenback Bears and Fiscal Hawks: Finance is a Jungle and Text Embeddings Must Adapt

要約

財務書類には専門用語、難解な専門用語、奇妙な頭字語がたくさんあり、汎用的なテキストの埋め込みには課題が生じます。
しかし、金融に特化したテキスト埋め込みはほとんど文献に報告されていません。これはおそらく、公開データセットやベンチマークが不足していることも一因でしょう。
我々は、1,430 万のクエリとパッセージのペアからなる慎重に構築されたデータセットに基づいて微調整されたテキスト エンベディングのセットである BAM エンベディングを紹介します。
ドメイン固有のトレーニングの利点を実証するため、BAM 埋め込みは、実施されたテスト セットで 62.8% の Recall@1 を達成しました。これに対し、OpenAI による最適な汎用テキスト 埋め込みではわずか 39.2% でした。
さらに、BAM 埋め込みにより、FinanceBench での質問回答精度が 8% 向上し、詳細で将来を見据えた企業および日付固有のクエリに含まれる財務固有の要素に対する感度が向上しました。
さらなる研究をサポートするために、私たちのアプローチを詳細に説明し、ハード ネガティブ マイニングとデータセットの規模の重要性を定量化します。

要約(オリジナル)

Financial documents are filled with specialized terminology, arcane jargon, and curious acronyms that pose challenges for general-purpose text embeddings. Yet, few text embeddings specialized for finance have been reported in the literature, perhaps in part due to a lack of public datasets and benchmarks. We present BAM embeddings, a set of text embeddings finetuned on a carefully constructed dataset of 14.3M query-passage pairs. Demonstrating the benefits of domain-specific training, BAM embeddings achieve Recall@1 of 62.8% on a held-out test set, vs. only 39.2% for the best general-purpose text embedding from OpenAI. Further, BAM embeddings increase question answering accuracy by 8% on FinanceBench and show increased sensitivity to the finance-specific elements that are found in detailed, forward-looking and company and date-specific queries. To support further research we describe our approach in detail, quantify the importance of hard negative mining and dataset scale.

arxiv情報

著者 Peter Anderson,Mano Vikash Janardhanan,Jason He,Wei Cheng,Charlie Flanagan
発行日 2024-11-11 17:13:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク