Fine-tuning Smaller Language Models for Question Answering over Financial Documents

要約

最近の研究では、より大きな教師モデルによって作成された推論の見本を使用して微調整すると、より小さな言語モデルでもかなりの推論能力を獲得できることが示されています。
私たちは、金融分野におけるこのパラダイムを探求し、金融テキストに対するマルチホップ数値推論を必要とする質問に答えるという課題に焦点を当てます。
必要な財務上の推論と計算をエンコードするプログラムを生成するために微調整されたいくつかの小規模なモデルのパフォーマンスを評価します。
私たちの調査結果は、これらの微調整された小さなモデルが教師モデルのパフォーマンスに近づいていることを示しています。
モデルのパフォーマンスを詳細に分析するために、微調整によって強化される特定の学生モデルの機能を調査するアプローチを提案します。
私たちの実証分析では、微調整により、エンティティ抽出を特定のデータ形式に適応させるとともに、必要な財務概念を表現および適用する学生モデルの能力が向上することが示されています。
さらに、比較的小規模なデータセットを使用しても、同等の財務推論能力を引き出すことができるという仮説を立て、実証します。

要約(オリジナル)

Recent research has shown that smaller language models can acquire substantial reasoning abilities when fine-tuned with reasoning exemplars crafted by a significantly larger teacher model. We explore this paradigm for the financial domain, focusing on the challenge of answering questions that require multi-hop numerical reasoning over financial texts. We assess the performance of several smaller models that have been fine-tuned to generate programs that encode the required financial reasoning and calculations. Our findings demonstrate that these fine-tuned smaller models approach the performance of the teacher model. To provide a granular analysis of model performance, we propose an approach to investigate the specific student model capabilities that are enhanced by fine-tuning. Our empirical analysis indicates that fine-tuning refines the student models ability to express and apply the required financial concepts along with adapting the entity extraction for the specific data format. In addition, we hypothesize and demonstrate that comparable financial reasoning capability can be induced using relatively smaller datasets.

arxiv情報

著者 Karmvir Singh Phogat,Sai Akhil Puranam,Sridhar Dasaratha,Chetan Harsha,Shashishekar Ramakrishna
発行日 2024-08-22 12:23:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SY, eess.SY パーマリンク