Extracting Structured Insights from Financial News: An Augmented LLM Driven Approach

要約

金融ニュースは金融セクター全体の意思決定プロセスにおいて重要な役割を果たしていますが、この情報を構造化された形式に効率的に処理することは依然として課題です。
この論文では、大規模言語モデル (LLM) を活用して、非構造化金融ニュースから構造化データを抽出することを以前は妨げていた制限を克服する、金融ニュース処理への新しいアプローチを紹介します。
当社では、事前に構造化されたデータ フィードに依存せずに、生のニュース記事コンテンツから関連する企業ティッカーを抽出し、企業レベルでセンチメント分析を実行し、概要を生成するシステムを導入しています。
私たちの方法論は、LLM の生成機能と最近のプロンプト技術を、カスタマイズされた文字列類似性アプローチを使用する堅牢な検証フレームワークと組み合わせています。
5,530 件の金融ニュース記事のデータセットの評価では、現在のデータ プロバイダーと比較して記事の 90% でティッカーが欠落しておらず、記事の 22% で追加の関連ティッカーが含まれており、私たちのアプローチの有効性が実証されています。
この論文に加えて、この方法論は大規模に実装されており、結果として処理されたデータはライブ API エンドポイントを通じて利用可能になり、最新ニュースでリアルタイムに更新されます。
私たちの知る限り、当社はニュース記事から企業ごとの詳細なセンチメント分析を提供する最初のデータプロバイダーであり、市場参加者が利用できる情報の深さを強化しています。
また、5,530 件の処理済み記事の評価データセットを静的ファイルとして公開し、金融ニュースを活用したさらなる研究を促進することを期待しています。

要約(オリジナル)

Financial news plays a crucial role in decision-making processes across the financial sector, yet the efficient processing of this information into a structured format remains challenging. This paper presents a novel approach to financial news processing that leverages Large Language Models (LLMs) to overcome limitations that previously prevented the extraction of structured data from unstructured financial news. We introduce a system that extracts relevant company tickers from raw news article content, performs sentiment analysis at the company level, and generates summaries, all without relying on pre-structured data feeds. Our methodology combines the generative capabilities of LLMs, and recent prompting techniques, with a robust validation framework that uses a tailored string similarity approach. Evaluation on a dataset of 5530 financial news articles demonstrates the effectiveness of our approach, with 90% of articles not missing any tickers compared with current data providers, and 22% of articles having additional relevant tickers. In addition to this paper, the methodology has been implemented at scale with the resulting processed data made available through a live API endpoint, which is updated in real-time with the latest news. To the best of our knowledge, we are the first data provider to offer granular, per-company sentiment analysis from news articles, enhancing the depth of information available to market participants. We also release the evaluation dataset of 5530 processed articles as a static file, which we hope will facilitate further research leveraging financial news.

arxiv情報

著者 Rian Dolphin,Joe Dursun,Jonathan Chow,Jarrett Blankenship,Katie Adams,Quinton Pike
発行日 2024-07-22 16:47:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク