Safety at Scale: A Comprehensive Survey of Large Model Safety

要約

大規模な事前トレーニングによる学習と一般化における並外れた能力によって推進される大規模なモデルの急速な進歩は、人工知能(AI)の景観を形作りました。
これらのモデルは現在、会話型AI、推奨システム、自律運転、コンテンツ生成、医療診断、科学的発見など、幅広いアプリケーションの基礎となっています。
しかし、彼らの広範な展開はまた、それらを重大な安全リスクにさらし、堅牢性、信頼性、倫理的意味についての懸念を引き起こします。
この調査では、Vision Foundationモデル(VFMS)、大規模な言語モデル(LLM)、ビジョン言語前トレーニング(VLP)モデル、ビジョン言語モデル(VLMS)、拡散モデル(DMS)、および大規模モデルベースのエージェントをカバーする大規模モデルに関する現在の安全研究の系統的レビューを提供します。
私たちの貢献は次のように要約されています。(1)敵対的攻撃、データ中毒、バックドア攻撃、脱獄および迅速な注入攻撃、エネルギー遅延攻撃、データとモデルの抽出攻撃、および新たなエージェント固有の脅威など、これらのモデルに対する安全性の脅威の包括的な分類法を提示します。
(2)利用可能な場合は、各タイプの攻撃について提案された防衛戦略を確認し、安全研究のために一般的に使用されるデータセットとベンチマークを要約します。
(3)これに基づいて、大規模なモデルの安全性におけるオープンな課題を特定し、議論し、包括的な安全評価、スケーラブルで効果的な防御メカニズム、および持続可能なデータプラクティスの必要性を強調します。
さらに重要なことは、研究コミュニティと国際的なコラボレーションからの集団的努力の必要性を強調しています。
私たちの仕事は、研究者と実践者にとって有用なリファレンスとして機能し、AIモデルを保護するための包括的な防衛システムとプラットフォームの継続的な開発を促進することができます。

要約(オリジナル)

The rapid advancement of large models, driven by their exceptional abilities in learning and generalization through large-scale pre-training, has reshaped the landscape of Artificial Intelligence (AI). These models are now foundational to a wide range of applications, including conversational AI, recommendation systems, autonomous driving, content generation, medical diagnostics, and scientific discovery. However, their widespread deployment also exposes them to significant safety risks, raising concerns about robustness, reliability, and ethical implications. This survey provides a systematic review of current safety research on large models, covering Vision Foundation Models (VFMs), Large Language Models (LLMs), Vision-Language Pre-training (VLP) models, Vision-Language Models (VLMs), Diffusion Models (DMs), and large-model-based Agents. Our contributions are summarized as follows: (1) We present a comprehensive taxonomy of safety threats to these models, including adversarial attacks, data poisoning, backdoor attacks, jailbreak and prompt injection attacks, energy-latency attacks, data and model extraction attacks, and emerging agent-specific threats. (2) We review defense strategies proposed for each type of attacks if available and summarize the commonly used datasets and benchmarks for safety research. (3) Building on this, we identify and discuss the open challenges in large model safety, emphasizing the need for comprehensive safety evaluations, scalable and effective defense mechanisms, and sustainable data practices. More importantly, we highlight the necessity of collective efforts from the research community and international collaboration. Our work can serve as a useful reference for researchers and practitioners, fostering the ongoing development of comprehensive defense systems and platforms to safeguard AI models.

arxiv情報

著者 Xingjun Ma,Yifeng Gao,Yixu Wang,Ruofan Wang,Xin Wang,Ye Sun,Yifan Ding,Hengyuan Xu,Yunhao Chen,Yunhan Zhao,Hanxun Huang,Yige Li,Jiaming Zhang,Xiang Zheng,Yang Bai,Zuxuan Wu,Xipeng Qiu,Jingfeng Zhang,Yiming Li,Xudong Han,Haonan Li,Jun Sun,Cong Wang,Jindong Gu,Baoyuan Wu,Siheng Chen,Tianwei Zhang,Yang Liu,Mingming Gong,Tongliang Liu,Shirui Pan,Cihang Xie,Tianyu Pang,Yinpeng Dong,Ruoxi Jia,Yang Zhang,Shiqing Ma,Xiangyu Zhang,Neil Gong,Chaowei Xiao,Sarah Erfani,Tim Baldwin,Bo Li,Masashi Sugiyama,Dacheng Tao,James Bailey,Yu-Gang Jiang
発行日 2025-03-19 16:10:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV パーマリンク