Assessing Consistency and Reproducibility in the Outputs of Large Language Models: Evidence Across Diverse Finance and Accounting Tasks

要約

この研究は、ファイナンスおよび会計研究における大規模な言語モデル(LLM)出力における一貫性と再現性に関する最初の包括的な評価を提供します。
LLMは、分類、センチメント分析、要約、テキスト生成、予測の5つの一般的なタスクにわたる50の独立した実行を使用した広範な実験を通じて、同一の入力を与えられた一貫したLLMがどのように出力を生成するかを評価します。
3つのOpenAIモデル(GPT-3.5-ターボ、GPT-4O-MINI、およびGPT-4O)を使用して、MD&ASをカバーする多様な財務源テキストとデータから340万以上の出力を生成し、FOMCステートメント、財務ニュース記事、収益コールトランスクリプト、財務諸表をカバーします。
私たちの調査結果は、バイナリ分類と感情分析がほぼ完璧な再現性を達成することで、実質的であるがタスク依存性の一貫性を明らかにし、複雑なタスクはより大きなばらつきを示しています。
より高度なモデルは、タスク固有のパターンが出現し、より良い一貫性と再現性を一貫して実証するものではありません。
LLMSは、人間の専門家が大幅に同意しない場合でも、専門家のアノテーターよりも一貫性のある人間のアノテーターを大幅に上回り、高い合意を維持します。
さらに、3〜5回の実行にわたる単純な集約戦略が一貫性を劇的に改善することがわかります。
シミュレーション分析により、LLM出力で測定可能な矛盾にもかかわらず、下流の統計的推論は著しく堅牢であることが明らかになりました。
これらの調査結果は、私たちが「G-Hacking」と呼ぶもの、複数の生成AIが実行する有利な結果の選択的報告を、そのようなリスクが金融および会計タスクで比較的低いことを実証することに関する懸念に対処しています。

要約(オリジナル)

This study provides the first comprehensive assessment of consistency and reproducibility in Large Language Model (LLM) outputs in finance and accounting research. We evaluate how consistently LLMs produce outputs given identical inputs through extensive experimentation with 50 independent runs across five common tasks: classification, sentiment analysis, summarization, text generation, and prediction. Using three OpenAI models (GPT-3.5-turbo, GPT-4o-mini, and GPT-4o), we generate over 3.4 million outputs from diverse financial source texts and data, covering MD&As, FOMC statements, finance news articles, earnings call transcripts, and financial statements. Our findings reveal substantial but task-dependent consistency, with binary classification and sentiment analysis achieving near-perfect reproducibility, while complex tasks show greater variability. More advanced models do not consistently demonstrate better consistency and reproducibility, with task-specific patterns emerging. LLMs significantly outperform expert human annotators in consistency and maintain high agreement even where human experts significantly disagree. We further find that simple aggregation strategies across 3-5 runs dramatically improve consistency. Simulation analysis reveals that despite measurable inconsistency in LLM outputs, downstream statistical inferences remain remarkably robust. These findings address concerns about what we term ‘G-hacking,’ the selective reporting of favorable outcomes from multiple Generative AI runs, by demonstrating that such risks are relatively low for finance and accounting tasks.

arxiv情報

著者 Julian Junyan Wang,Victor Xiaoqi Wang
発行日 2025-03-21 09:43:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.LG, q-fin.GN パーマリンク