要約
私たちは、財務書類に含まれる関連する数値 (GAAP 指標) に、対応する XBRL タグを使用して自動的に注釈を付ける問題を研究します。
以前の研究とは異なり、我々は、大規模言語モデル (LLM) の命令チューニングによる生成パラダイムを使用して、この極端な分類問題を解決する実現可能性を調査します。
この目的を達成するために、LoRA を使用してタスクに対するパラメーター効率の高いソリューションを提案しながら、メトリクスのメタデータ情報を活用してターゲットの出力を構成します。
最近リリースされた 2 つの金融数値ラベリング データセットに対して実験を実行します。
私たちが提案したモデル FLAN-FinXC は、両方のデータセットで新しい最先端のパフォーマンスを達成し、いくつかの強力なベースラインを上回りました。
ゼロショットおよび最も頻度の低いタグに対するその機能を実証することで、提案したモデルのスコアが向上していることを説明します。
また、XBRL タグを正しく予測できなかった場合でも、生成された出力は、ほとんどの場合、グラウンド トゥルースと大幅に重複します。
要約(オリジナル)
We study the problem of automatically annotating relevant numerals (GAAP metrics) occurring in the financial documents with their corresponding XBRL tags. Different from prior works, we investigate the feasibility of solving this extreme classification problem using a generative paradigm through instruction tuning of Large Language Models (LLMs). To this end, we leverage metric metadata information to frame our target outputs while proposing a parameter efficient solution for the task using LoRA. We perform experiments on two recently released financial numeric labeling datasets. Our proposed model, FLAN-FinXC, achieves new state-of-the-art performances on both the datasets, outperforming several strong baselines. We explain the better scores of our proposed model by demonstrating its capability for zero-shot as well as the least frequently occurring tags. Also, even when we fail to predict the XBRL tags correctly, our generated output has substantial overlap with the ground-truth in majority of the cases.
arxiv情報
著者 | Subhendu Khatuya,Rajdeep Mukherjee,Akash Ghosh,Manjunath Hegde,Koustuv Dasgupta,Niloy Ganguly,Saptarshi Ghosh,Pawan Goyal |
発行日 | 2024-05-15 14:43:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google