Lila: A Unified Benchmark for Mathematical Reasoning

要約

数学的推論スキルは、汎用インテリジェント システムが食料品の買い物から気候モデリングまでのタスクを実行するために不可欠です。
この分野での AI システムの評価と改善に向けて、4 つの次元に沿った 23 の多様なタスクで構成される統合された数学的推論ベンチマークである LILA を提案します。
-空白 (iii) 言語の多様性、例: 言語なし、単純な言語 (iv) 外的知識、例: 常識、物理学。
タスクの指示と解を Python プログラムの形で収集することにより、20 個のデータセット ベンチマークを拡張することで、ベンチマークを構築し、正解に加えて説明可能な解を取得します。
さらに、分布外のパフォーマンスと言語の摂動に対する堅牢性を測定するために、2 つの評価データセットを導入します。
最後に、LILA でトレーニングされた汎用の数学的推論モデルである BHASKARA を紹介します。
重要なことは、マルチタスクが大幅な改善 (単一タスク モデルに対して F1 スコアの平均で 21.83% の相対的な改善) につながることがわかりましたが、最もパフォーマンスの高いモデルは 60.40% しか得られず、一般的な数学的推論と理解に改善の余地があることを示しています。
.

要約(オリジナル)

Mathematical reasoning skills are essential for general-purpose intelligent systems to perform tasks from grocery shopping to climate modeling. Towards evaluating and improving AI systems in this domain, we propose LILA, a unified mathematical reasoning benchmark consisting of 23 diverse tasks along four dimensions: (i) mathematical abilities e.g., arithmetic, calculus (ii) language format e.g., question-answering, fill-in-the-blanks (iii) language diversity e.g., no language, simple language (iv) external knowledge e.g., commonsense, physics. We construct our benchmark by extending 20 datasets benchmark by collecting task instructions and solutions in the form of Python programs, thereby obtaining explainable solutions in addition to the correct answer. We additionally introduce two evaluation datasets to measure out-of-distribution performance and robustness to language perturbation. Finally, we introduce BHASKARA, a general-purpose mathematical reasoning model trained on LILA. Importantly, we find that multi-tasking leads to significant improvements (average relative improvement of 21.83% F1 score vs. single-task models), while the best performing model only obtains 60.40%, indicating the room for improvement in general mathematical reasoning and understanding.

arxiv情報

著者 Swaroop Mishra,Matthew Finlayson,Pan Lu,Leonard Tang,Sean Welleck,Chitta Baral,Tanmay Rajpurohit,Oyvind Tafjord,Ashish Sabharwal,Peter Clark,Ashwin Kalyan
発行日 2023-03-08 16:47:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, I.2.7 パーマリンク