要約
数学単語問題 (MWP) の解決は、自然言語処理における重要なタスクであり、近年大きな研究の関心を集めています。
最近のさまざまな研究は、数式を生成するために Seq2Seq モデルとその拡張機能 (Seq2Tree や Graph2Tree など) に大きく依存しています。
これらのモデルは効果的ではありますが、多様ではあるが対応する解の方程式を生成するのに苦労し、さまざまな数学問題のシナリオ全体での一般化が制限されます。
この論文では、実用的な MWP 解決のための新しい多様性強化知識蒸留 (DivKD) モデルを紹介します。
私たちのアプローチは、教師モデルから高品質の知識を選択的に転送することによって学生モデルが多様な方程式を学習する、適応的ダイバーシティ蒸留手法を提案します。
さらに、条件付き変分自動エンコーダーを組み込むことで、方程式の多様性分布をより適切に捕捉するために、多様性を事前に強化したスチューデント モデルを設計します。
{4} つの MWP ベンチマーク データセットでの広範な実験により、私たちのアプローチが実用的なアプリケーションで高い効率を維持しながら、強力なベースラインよりも高い回答精度を達成できることが実証されました。
要約(オリジナル)
Math Word Problem (MWP) solving is a critical task in natural language processing, has garnered significant research interest in recent years. Various recent studies heavily rely on Seq2Seq models and their extensions (e.g., Seq2Tree and Graph2Tree) to generate mathematical equations. While effective, these models struggle to generate diverse but counterpart solution equations, limiting their generalization across various math problem scenarios. In this paper, we introduce a novel Diversity-enhanced Knowledge Distillation (DivKD) model for practical MWP solving. Our approach proposes an adaptive diversity distillation method, in which a student model learns diverse equations by selectively transferring high-quality knowledge from a teacher model. Additionally, we design a diversity prior-enhanced student model to better capture the diversity distribution of equations by incorporating a conditional variational auto-encoder. Extensive experiments on {four} MWP benchmark datasets demonstrate that our approach achieves higher answer accuracy than strong baselines while maintaining high efficiency for practical applications.
arxiv情報
著者 | Yi Zhang,Guangyou Zhou,Zhiwen Xie,Jinjin Ma,Jimmy Xiangji Huang |
発行日 | 2025-01-07 10:18:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google