要約
埋め込みモデルは、さまざまなNLPアプリケーションで情報を表現および取得する上で重要な役割を果たします。
大規模な言語モデル(LLMS)の最近の進歩により、埋め込みモデルのパフォーマンスがさらに向上しました。
これらのモデルは一般的なデータセットでベンチマークされることがよくありますが、実際のアプリケーションはドメイン固有の評価を必要とします。
この作業では、金融ドメイン向けに設計されたMTEBの専門的な対応物であるFinance Massive Text Embedding Benchmark(Finmteb)を紹介します。
Finmtebは、金融ニュース記事、企業年次報告書、ESGレポート、規制申請、収益のコールトランスクリプトなど、中国と英語の両方で多様なテキストタイプをカバーする7つのタスクにわたる64の金融ドメイン固有の埋め込みデータセットで構成されています。
また、ペルソナベースのデータ合成方法を使用して、トレーニング用の多様な金融埋め込みタスクをカバーするために、金融に適合したモデルであるFIN-E5を開発します。
FIN-E5を含む15の埋め込みモデルの広範な評価を通じて、3つの重要な調査結果を示します。(1)汎用ベンチマークのパフォーマンスは、金融ドメインタスクとの限定的な相関を示しています。
(2)ドメインに適応したモデルは、一貫して汎用の対応物よりも優れています。
(3)驚くべきことに、単純な単語の袋(弓)アプローチは、金融セマンティックテキストの類似性(STS)タスクの洗練された密な埋め込みを上回り、密集した埋め込み技術の現在の制限を強調しています。
私たちの仕事は、金融NLPアプリケーションのための堅牢な評価フレームワークを確立し、ドメイン固有の埋め込みモデルを開発するための重要な洞察を提供します。
要約(オリジナル)
Embedding models play a crucial role in representing and retrieving information across various NLP applications. Recent advances in large language models (LLMs) have further enhanced the performance of embedding models. While these models are often benchmarked on general-purpose datasets, real-world applications demand domain-specific evaluation. In this work, we introduce the Finance Massive Text Embedding Benchmark (FinMTEB), a specialized counterpart to MTEB designed for the financial domain. FinMTEB comprises 64 financial domain-specific embedding datasets across 7 tasks that cover diverse textual types in both Chinese and English, such as financial news articles, corporate annual reports, ESG reports, regulatory filings, and earnings call transcripts. We also develop a finance-adapted model, Fin-E5, using a persona-based data synthetic method to cover diverse financial embedding tasks for training. Through extensive evaluation of 15 embedding models, including Fin-E5, we show three key findings: (1) performance on general-purpose benchmarks shows limited correlation with financial domain tasks; (2) domain-adapted models consistently outperform their general-purpose counterparts; and (3) surprisingly, a simple Bag-of-Words (BoW) approach outperforms sophisticated dense embeddings in financial Semantic Textual Similarity (STS) tasks, underscoring current limitations in dense embedding techniques. Our work establishes a robust evaluation framework for financial NLP applications and provides crucial insights for developing domain-specific embedding models.
arxiv情報
著者 | Yixuan Tang,Yi Yang |
発行日 | 2025-02-26 14:26:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google