Safety in Large Reasoning Models: A Survey

要約

大規模な推論モデル(LRMS)は、数学やコーディングなどのタスクで並外れた腕前を示し、高度な推論機能を活用しています。
それにもかかわらず、これらの能力が進むにつれて、それらの脆弱性と安全性に関する大きな懸念が生じ、実世界の設定での展開と適用に課題をもたらす可能性があります。
このペーパーでは、LRMSの包括的な調査を提示し、新たに出現した安全リスク、攻撃、防衛戦略を細心の注意を払って調査し、要約します。
これらの要素を詳細な分類法に整理することにより、この作業は、LRMSの現在の安全状況に関する明確で構造化された理解を提供し、これらの強力なモデルのセキュリティと信頼性を高めるための将来の研究開発を促進することを目的としています。

要約(オリジナル)

Large Reasoning Models (LRMs) have exhibited extraordinary prowess in tasks like mathematics and coding, leveraging their advanced reasoning capabilities. Nevertheless, as these capabilities progress, significant concerns regarding their vulnerabilities and safety have arisen, which can pose challenges to their deployment and application in real-world settings. This paper presents a comprehensive survey of LRMs, meticulously exploring and summarizing the newly emerged safety risks, attacks, and defense strategies. By organizing these elements into a detailed taxonomy, this work aims to offer a clear and structured understanding of the current safety landscape of LRMs, facilitating future research and development to enhance the security and reliability of these powerful models.

arxiv情報

著者 Cheng Wang,Yue Liu,Baolong Li,Duzhen Zhang,Zhongzhi Li,Junfeng Fang
発行日 2025-04-24 16:11:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク