Pretrained Language Models are Symbolic Mathematics Solvers too!

要約

記号数学を解くことは、構成論的推論と反復を必要とする人間の創意工夫の分野で常に行われてきました。
しかし、最近の研究では、トランスフォーマーなどの大規模な言語モデルは普遍的であり、驚くべきことに、複雑な数式を解くためにシーケンスからシーケンスへのタスクとしてトレーニングできることが示されています。
これらの大規模な変換モデルは、目に見えない記号数学の問題に一般化するために膨大な量のトレーニング データを必要とします。
このホワイト ペーパーでは、最初に変換モデルを言語翻訳で事前トレーニングし、次に事前トレーニング済みの変換モデルを微調整してシンボリック数学のダウンストリーム タスクを解決することにより、シンボリック タスクを解決する効率的な方法の例を示します。
シンボリック数学の最先端の深層学習に関して、約 $1.5$ オーダー少ないトレーニング サンプル数を使用しながら、事前トレーニング済みモデルとの統合タスクで同等の精度を達成します。
微分方程式タスクのテスト精度は、言語翻訳には存在しない高次の再帰を必要とするため、統合と比較してかなり低くなります。
Anna Karenina Principle (AKP) から事前学習済み言語モデルの一般化可能性を提案します。
さまざまな言語翻訳のペアでモデルを事前トレーニングします。
私たちの結果は、記号数学の課題を解決する際の言語バイアスを示しています。
最後に、分布シフトに対するシンボリック数学タスクで微調整されたモデルのロバスト性を研究し、関数統合の分布シフト シナリオでアプローチをより一般化します。

要約(オリジナル)

Solving symbolic mathematics has always been of in the arena of human ingenuity that needs compositional reasoning and recurrence. However, recent studies have shown that large-scale language models such as transformers are universal and surprisingly can be trained as a sequence-to-sequence task to solve complex mathematical equations. These large transformer models need humongous amounts of training data to generalize to unseen symbolic mathematics problems. In this paper, we present a sample efficient way of solving the symbolic tasks by first pretraining the transformer model with language translation and then fine-tuning the pretrained transformer model to solve the downstream task of symbolic mathematics. We achieve comparable accuracy on the integration task with our pretrained model while using around $1.5$ orders of magnitude less number of training samples with respect to the state-of-the-art deep learning for symbolic mathematics. The test accuracy on differential equation tasks is considerably lower comparing with integration as they need higher order recursions that are not present in language translations. We propose the generalizability of our pretrained language model from Anna Karenina Principle (AKP). We pretrain our model with different pairs of language translations. Our results show language bias in solving symbolic mathematics tasks. Finally, we study the robustness of the fine-tuned model on symbolic math tasks against distribution shift, and our approach generalizes better in distribution shift scenarios for the function integration.

arxiv情報

著者 Kimia Noorbakhsh,Modar Sulaiman,Mahdi Sharifi,Kallol Roy,Pooyan Jamshidi
発行日 2023-03-14 10:30:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク