Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance

要約

大規模な言語モデル(LLM)は強力な一般的な推論能力を示していますが、現実世界の金融アプリケーションにとって重要な財務上の推論における有効性は未定です。
この研究では、金融テキスト、表形式データ、方程式を含む4つの複雑な財務上の推論タスクにわたって、24の最先端の一般および推論に焦点を当てたLLMの包括的な評価を実施します。
数値的推論、表形式の解釈、財務用語の理解、長い文章の理解、方程式ベースの問題解決などの重要な機能を評価します。
私たちの分析により、データの品質と事前トレーニングはパフォーマンスに貢献しているが、チェーンオブテアの(COT)微調整などの一般的な手法は、金融タスクの限られた利益を提供することを明らかにしています。
これに対処するために、ドメイン固有の推論パスを使用してCOT微調整と補強学習で訓練された2つのドメイン適応モデル、FINO1-8BとFINO1-14Bを提案します。
私たちのモデルは、多様なソースからの高品質の例を統合する慎重にキュレーションされたデータセットでトレーニングされ、財務報告、表、方程式、構造化されたXBRLテキストをカバーしています。
限られたトレーニングデータにもかかわらず、彼らは7-9%のパフォーマンス改善を達成し、GPT-O1、GPT-O3-MINI、GPT-4.5を含むいくつかの高度なLLMを上回り、DeepSeekモデル(V3およびR1)に匹敵し、リソースの制約付きシナリオで強い実用的価値を示します。
私たちの調査結果は、財務上の推論におけるドメイン固有の適応の必要性を強調しており、将来の研究のためのすべてのデータセット、モデル、およびコードをリリースします。

要約(オリジナル)

While large language models (LLMs) have shown strong general reasoning capabilities, their effectiveness in financial reasoning, which is crucial for real-world financial applications remains underexplored. In this study, we conduct a comprehensive evaluation of 24 state-of-the-art general and reasoning-focused LLMs across four complex financial reasoning tasks involving financial text, tabular data, and equations. We assess key capabilities such as numerical reasoning, tabular interpretation, financial terminology comprehension, long-context understanding, and equation-based problem solving. Our analysis reveals that while data quality and pretraining contribute to performance, general techniques like chain-of-thought (CoT) fine-tuning offer limited gains in financial tasks. To address this, we propose two domain-adapted models, Fino1-8B and Fino1-14B, trained with CoT fine-tuning and reinforcement learning using domain-specific reasoning paths. Our models are trained on a carefully curated dataset integrating high-quality examples from diverse sources, covering financial reports, tables, equations, and structured XBRL texts. Despite limited training data, they achieve an 7-9% performance improvement, outperforming several advanced LLMs, including GPT-o1, GPT-o3-mini, GPT-4.5, and comparable with DeepSeek models (V3 and R1), demonstrating strong practical value in resource, constrained scenarios. Our findings highlight the need for domain-specific adaptations in financial reasoning, and we release all datasets, models, and code for future research.

arxiv情報

著者 Lingfei Qian,Weipeng Zhou,Yan Wang,Xueqing Peng,Han Yi,Jimin Huang,Qianqian Xie,Jianyun Nie
発行日 2025-03-28 08:33:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク