APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning

要約

財務分析における長い形式の数値推論は、与えられた質問に対する正しい答えを計算する推論プログラムを生成することを目的としています。
以前の研究では、検索者が長い形式の文書から重要な事実を選択し、ジェネレーターが取得した事実に基づいて推論プログラムを生成する、検索者とジェネレーターのフレームワークに従っていました。
しかし、彼らは、数字の有無による事実の寄与の違いを考慮することなく、すべての事実を平等に扱いました。
一方、教師ありトレーニングではプログラムの一貫性が無視され、トレーニングの精度と多様性が低下しました。
これらの問題を解決するために、私たちは長形式の数値推論フレームワークを改善する APOLLO を提案しました。
レトリーバーに対しては、数値を意識したネガティブ サンプリング戦略を採用し、レトリーバーが重要な数値事実をより識別できるようにします。
ジェネレータでは、プログラムの実行結果の一貫性に基づいて、一貫性に基づく強化学習とターゲットプログラムの拡張戦略を設計します。
FinQA および ConvFinQA リーダーボードの実験結果は、私たちが提案した方法の有効性を検証し、新しい最先端を達成しました。

要約(オリジナル)

Long-form numerical reasoning in financial analysis aims to generate a reasoning program to calculate the correct answer for a given question. Previous work followed a retriever-generator framework, where the retriever selects key facts from a long-form document, and the generator generates a reasoning program based on retrieved facts. However, they treated all facts equally without considering the different contributions of facts with and without numbers. Meanwhile, the program consistency were ignored under supervised training, resulting in lower training accuracy and diversity. To solve these problems, we proposed APOLLO to improve the long-form numerical reasoning framework. For the retriever, we adopt a number-aware negative sampling strategy to enable the retriever to be more discriminative on key numerical facts. For the generator, we design consistency-based reinforcement learning and target program augmentation strategy based on the consistency of program execution results. Experimental results on the FinQA and ConvFinQA leaderboard verify the effectiveness of our proposed method, achieving the new state-of-the-art.

arxiv情報

著者 Jiashuo Sun,Hang Zhang,Chen Lin,Xiangdong Su,Yeyun Gong,Jian Guo
発行日 2024-03-12 13:30:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク