Investigating the Robustness of LLMs on Math Word Problems

要約

大規模言語モデル(Large Language Models: LLM)は、数学の単語問題(MWP)を解くことを含む様々なタスクに優れているが、無関係な情報を含む実世界の問題には苦戦する。この問題に対処するため、我々は、無関係な変数を追加することにより、MWPの敵対的変種を生成するプロンプトフレームワークを提案する。敵対的MWPと非敵対的MWPの両方を含むデータセットProbleMATHICを導入する。我々の実験により、LLMは数値ノイズによる注意散漫の影響を受けやすく、その結果、敵対的MWPでは平均26%の相対的性能低下をもたらすことが明らかになった。これを軽減するために、我々はデータセットの敵対的サンプルでLLM(Llama-2、Mistral)を微調整した。敵対的な訓練インスタンスで微調整を行うことで、敵対的なMWPでの性能が~8%向上し、ノイズに対する頑健性が向上し、推論に関連するデータを識別する能力が向上した。最後に、我々のプロンプトフレームワークの一般性を評価するために、GSM-8Kベンチマークの敵対的な変種であるGSM-8K-Advを導入する。LLMは敵対的な情報に直面すると苦戦を強いられ続け、最大で6%性能が低下した。

要約(オリジナル)

Large Language Models (LLMs) excel at various tasks, including solving math word problems (MWPs), but struggle with real-world problems containing irrelevant information. To address this, we propose a prompting framework that generates adversarial variants of MWPs by adding irrelevant variables. We introduce a dataset, ProbleMATHIC, containing both adversarial and non-adversarial MWPs. Our experiments reveal that LLMs are susceptible to distraction by numerical noise, resulting in an average relative performance drop of ~26% on adversarial MWPs. To mitigate this, we fine-tune LLMs (Llama-2, Mistral) on the adversarial samples from our dataset. Fine-tuning on adversarial training instances improves performance on adversarial MWPs by ~8%, indicating increased robustness to noise and better ability to identify relevant data for reasoning. Finally, to assess the generalizability of our prompting framework, we introduce GSM-8K-Adv, an adversarial variant of the GSM-8K benchmark. LLMs continue to struggle when faced with adversarial information, reducing performance by up to ~6%.

arxiv情報

著者 Ujjwala Anantheswaran,Himanshu Gupta,Kevin Scaria,Shreyas Verma,Chitta Baral,Swaroop Mishra
発行日 2024-09-03 17:48:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク