要約
大規模言語モデル (LLM) のブームにより、数学の文章問題 (MWP) を解く研究は最近大きく進歩しました。
しかし、数学的解決能力における LLM の安全性を調査する研究はほとんどありません。
LLM を使用してプロンプトを攻撃する代わりに、数学の問題を解決する際のセキュリティの本質に近い MWP サンプルを攻撃する Math Attack モデルを提案します。
従来のテキスト敵対的攻撃と比較して、攻撃中に元の MWP の数学的ロジックを保持することが不可欠です。
この目的を達成するために、凍結される論理エントリを識別する論理エンティティ認識を提案します。
続いて、残りのテキストが単語レベルの攻撃者を採用して攻撃されます。
さらに、数学的解決能力におけるLLMの堅牢性を評価するための新しいデータセットRobustMathを提案します。
RobustMath と、別の 2 つの数学ベンチマーク データセット GSM8K および MultiAirth での広範な実験により、Math Attack が LLM の数学的解決能力を効果的に攻撃できることが示されました。
実験では、(1) 精度の高い LLM からの敵対的サンプルは、精度の低い LLM への攻撃にも効果的であることがわかりました (例: より大きなサイズの LLM からより小さなサイズの LLM への転送、または少数ショットのプロンプトからゼロショットのプロンプトへの転送)
;
(2) 複雑な MWP (より多くの解決ステップ、より長いテキスト、より多くの数値など) は攻撃に対してより脆弱です。
(3) 少数ショット プロンプトで敵対的サンプルを使用することで、LLM の堅牢性を向上させることができます。
最後に、私たちの実践と観察が、数学的解決能力における LLM の堅牢性を高めるための重要な試みとして役立つことを願っています。
コードとデータセットをリリースします。
要約(オリジナル)
With the boom of Large Language Models (LLMs), the research of solving Math Word Problem (MWP) has recently made great progress. However, there are few studies to examine the security of LLMs in math solving ability. Instead of attacking prompts in the use of LLMs, we propose a MathAttack model to attack MWP samples which are closer to the essence of security in solving math problems. Compared to traditional text adversarial attack, it is essential to preserve the mathematical logic of original MWPs during the attacking. To this end, we propose logical entity recognition to identify logical entries which are then frozen. Subsequently, the remaining text are attacked by adopting a word-level attacker. Furthermore, we propose a new dataset RobustMath to evaluate the robustness of LLMs in math solving ability. Extensive experiments on our RobustMath and two another math benchmark datasets GSM8K and MultiAirth show that MathAttack could effectively attack the math solving ability of LLMs. In the experiments, we observe that (1) Our adversarial samples from higher-accuracy LLMs are also effective for attacking LLMs with lower accuracy (e.g., transfer from larger to smaller-size LLMs, or from few-shot to zero-shot prompts); (2) Complex MWPs (such as more solving steps, longer text, more numbers) are more vulnerable to attack; (3) We can improve the robustness of LLMs by using our adversarial samples in few-shot prompts. Finally, we hope our practice and observation can serve as an important attempt towards enhancing the robustness of LLMs in math solving ability. We will release our code and dataset.
arxiv情報
著者 | Zihao Zhou,Qiufeng Wang,Mingyu Jin,Jie Yao,Jianan Ye,Wei Liu,Wei Wang,Xiaowei Huang,Kaizhu Huang |
発行日 | 2023-09-04 16:02:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google