ArithmAttack: Evaluating Robustness of LLMs to Noisy Context in Math Problem Solving

要約

大規模言語モデル (LLM) は数学の問題解決タスクにおいて優れた能力を示していますが、ノイズの多い入力に対するその堅牢性については十分に研究されていません。
この研究では、句読点の形で余分なノイズを含むノイズの多いプロンプトに LLM が遭遇したときに、LLM がどの程度堅牢であるかを調べる Arithm Attack を提案します。
Arithm Attack は実装が簡単ですが、コンテキストに単語が追加されたり削除されたりしないため、情報の損失は発生しません。
ノイズの多い GSM8K および MultiArith データセット上で、LLama3、Mistral、Mathstral を含む 7 つの LLM の堅牢性を評価します。
私たちの実験では、調査したすべてのモデルがそのようなノイズに対して脆弱であり、ノイズが増えるとパフォーマンスが低下することが示唆されています。

要約(オリジナル)

While Large Language Models (LLMs) have shown impressive capabilities in math problem-solving tasks, their robustness to noisy inputs is not well-studied. In this work, we propose ArithmAttack to examine how robust the LLMs are when they encounter noisy prompts that contain extra noise in the form of punctuation marks. While being easy to implement, ArithmAttack does not cause any information loss since words are not added or deleted from the context. We evaluate the robustness of seven LLMs, including LLama3, Mistral, and Mathstral, on noisy GSM8K and MultiArith datasets. Our experiments suggest that all the studied models show vulnerability to such noise, with more noise leading to poorer performances.

arxiv情報

著者 Zain Ul Abedin,Shahzeb Qamar,Lucie Flek,Akbar Karimi
発行日 2025-01-14 15:38:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク