Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments

要約

タスクに頑健な適応は、逐次的な意思決定における長年の課題である。いくつかのリスク回避戦略、例えば条件付きバリューアットリスク原理は、最適化において困難なタスクに優先順位をつけるために、領域ランダム化やメタ強化学習に取り入れられている。効率性の問題は、適応的な政策を訓練するための頑健な能動的タスクサンプリングの開発を促し、リスク予測モデルは政策評価の代替に用いられる。本研究では、ロバスト・アクティブ・タスク・サンプリングの最適化パイプラインをマルコフ決定過程として特徴付け、理論的かつ実用的な洞察を提示し、リスク回避シナリオにおけるロバスト性の概念を構成する。重要な点は、高速でロバストな逐次的意思決定に対応するために、事後的・多様性相乗タスクサンプリング(PDTS)と呼ばれる実装が容易な手法を提案することである。広範な実験により、PDTSがロバストな能動的タスクサンプリングの可能性を引き出し、困難なタスクにおけるゼロショットと少数ショット適応のロバスト性を大幅に改善し、特定のシナリオ下では学習プロセスさえも加速することが示された。我々のプロジェクトのウェブサイトはhttps://thu-rllab.github.io/PDTS_project_page。

要約(オリジナル)

Task robust adaptation is a long-standing pursuit in sequential decision-making. Some risk-averse strategies, e.g., the conditional value-at-risk principle, are incorporated in domain randomization or meta reinforcement learning to prioritize difficult tasks in optimization, which demand costly intensive evaluations. The efficiency issue prompts the development of robust active task sampling to train adaptive policies, where risk-predictive models are used to surrogate policy evaluation. This work characterizes the optimization pipeline of robust active task sampling as a Markov decision process, posits theoretical and practical insights, and constitutes robustness concepts in risk-averse scenarios. Importantly, we propose an easy-to-implement method, referred to as Posterior and Diversity Synergized Task Sampling (PDTS), to accommodate fast and robust sequential decision-making. Extensive experiments show that PDTS unlocks the potential of robust active task sampling, significantly improves the zero-shot and few-shot adaptation robustness in challenging tasks, and even accelerates the learning process under certain scenarios. Our project website is at https://thu-rllab.github.io/PDTS_project_page.

arxiv情報

著者 Yun Qu,Qi Cheems Wang,Yixiu Mao,Yiqin Lv,Xiangyang Ji
発行日 2025-05-02 08:16:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML | Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments はコメントを受け付けていません

Transfer Learning of Surrogate Models via Domain Affine Transformation Across Synthetic and Real-World Benchmarks

要約

サロゲート・モデルは、実世界のプロセスの実行にかかるコストの効率的な代替手段として、頻繁に採用されている。しかし、高品質のサロゲートモデルを構築するためには、多くの場合、大規模なデータ収集が必要となる。この問題に対する解決策は、タスク間に一定の不変性が存在する場合に、新しいタスク用に事前に訓練されたサロゲートモデルを転送することである。本研究では、ターゲット上で評価された限られた量の転送データ点のみを用いて、両者のドメインが未知のアフィン変換によって関連していると仮定する、ソース関数からターゲット関数への非差分サロゲートモデル(例えばランダムフォレスト)の転送に焦点を当てる。これまでの研究では、微分可能なモデル、例えばガウス過程回帰に対してこの課題に取り組むことが試みられており、アフィン変換を調整することで、伝達データに対する経験的損失を最小化する。本論文では、これまでの研究をランダムフォレストに拡張し、広く利用されている人工問題セットであるBlack-Box Optimization Benchmark (BBOB)テストベッドと、4つの実世界の転移学習問題において、その有効性を評価する。その結果、提案手法の実用的な利点、特に複雑な実世界のシナリオに対する代理モデルの学習に必要なデータ量と計算コストの両方を削減できることが明らかになった。

要約(オリジナル)

Surrogate models are frequently employed as efficient substitutes for the costly execution of real-world processes. However, constructing a high-quality surrogate model often demands extensive data acquisition. A solution to this issue is to transfer pre-trained surrogate models for new tasks, provided that certain invariances exist between tasks. This study focuses on transferring non-differentiable surrogate models (e.g., random forests) from a source function to a target function, where we assume their domains are related by an unknown affine transformation, using only a limited amount of transfer data points evaluated on the target. Previous research attempts to tackle this challenge for differentiable models, e.g., Gaussian process regression, which minimizes the empirical loss on the transfer data by tuning the affine transformations. In this paper, we extend the previous work to the random forest and assess its effectiveness on a widely-used artificial problem set – Black-Box Optimization Benchmark (BBOB) testbed, and on four real-world transfer learning problems. The results highlight the significant practical advantages of the proposed method, particularly in reducing both the data requirements and computational costs of training surrogate models for complex real-world scenarios.

arxiv情報

著者 Shuaiqun Pan,Diederick Vermetten,Manuel López-Ibáñez,Thomas Bäck,Hao Wang
発行日 2025-05-02 09:04:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Transfer Learning of Surrogate Models via Domain Affine Transformation Across Synthetic and Real-World Benchmarks はコメントを受け付けていません

Risk Analysis and Design Against Adversarial Actions

要約

敵対的な行動に直面しても信頼できる予測を提供できるモデルを学習することは、近年、機械学習コミュニティの中心的な焦点となっている。この課題は、展開時に遭遇するデータが、モデルが学習された条件からしばしば逸脱することを観察することから生じる。本論文では、配備時の敵対的行動を取り上げ、多様な種類と強度の攻撃に対するモデルの頑健性を評価するための、汎用的で原理的なフレームワークを提案する。当初はサポートベクトル回帰(SVR)に焦点を当てるが、提案するアプローチは、緩和された最適化技術により、学習の幅広い領域に自然に拡張される。我々の結果は、追加のテストデータを必要とせずにモデルの脆弱性を評価することを可能にし、分布のないセットアップで動作する。これらの結果は、モデルの適用性に対する信頼を高めるツールを提供するだけでなく、競合する選択肢の中から選択する際にも役立つ。本論文の後半では、我々の発見が、分布外の枠組みの中で新しい結果を確立するための有用な洞察も提供することを示す。

要約(オリジナル)

Learning models capable of providing reliable predictions in the face of adversarial actions has become a central focus of the machine learning community in recent years. This challenge arises from observing that data encountered at deployment time often deviate from the conditions under which the model was trained. In this paper, we address deployment-time adversarial actions and propose a versatile, well-principled framework to evaluate the model’s robustness against attacks of diverse types and intensities. While we initially focus on Support Vector Regression (SVR), the proposed approach extends naturally to the broad domain of learning via relaxed optimization techniques. Our results enable an assessment of the model vulnerability without requiring additional test data and operate in a distribution-free setup. These results not only provide a tool to enhance trust in the model’s applicability but also aid in selecting among competing alternatives. Later in the paper, we show that our findings also offer useful insights for establishing new results within the out-of-distribution framework.

arxiv情報

著者 Marco C. Campi,Algo Carè,Luis G. Crespo,Simone Garatti,Federico A. Ramponi
発行日 2025-05-02 09:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, math.ST, stat.ML, stat.TH | Risk Analysis and Design Against Adversarial Actions はコメントを受け付けていません

Reward Guidance for Reinforcement Learning Tasks Based on Large Language Models: The LMGT Framework

要約

強化学習(RL)の環境遷移モデルには不確実性が内在しているため、探索と探索の微妙なバランスが必要となる。このバランスは、エージェントに期待される報酬を正確に推定するために計算資源を最適化する上で極めて重要である。ロボット制御システムのような報酬が疎なシナリオでは、このバランスを達成することは特に困難である。しかし、多くの環境は広範な事前知識を持っているため、このような文脈で一から学習することは冗長になる可能性がある。この問題に対処するために、我々は、新しいサンプル効率の良いフレームワークである言語モデル誘導報酬チューニング(Language Model Guided reward Tuning: LMGT)を提案する。LMGTは、大規模言語モデル(LLM)に埋め込まれた包括的な事前知識と、Wikiチュートリアルのような非標準的なデータ形式を処理する能力を活用する。LLMが誘導する報酬シフトを利用することで、LMGTは探索と探索のバランスを巧みにとり、それによってエージェントの探索行動を誘導し、サンプル効率を向上させる。我々は、様々なRLタスクにおいてLMGTを厳密に評価し、具現化されたロボット環境Housekeepにおいて評価した。その結果、LMGTはベースライン手法を常に凌駕することが実証された。さらに、この結果は、我々のフレームワークがRL学習段階で必要とされる計算資源を大幅に削減できることを示唆している。

要約(オリジナル)

The inherent uncertainty in the environmental transition model of Reinforcement Learning (RL) necessitates a delicate balance between exploration and exploitation. This balance is crucial for optimizing computational resources to accurately estimate expected rewards for the agent. In scenarios with sparse rewards, such as robotic control systems, achieving this balance is particularly challenging. However, given that many environments possess extensive prior knowledge, learning from the ground up in such contexts may be redundant. To address this issue, we propose Language Model Guided reward Tuning (LMGT), a novel, sample-efficient framework. LMGT leverages the comprehensive prior knowledge embedded in Large Language Models (LLMs) and their proficiency in processing non-standard data forms, such as wiki tutorials. By utilizing LLM-guided reward shifts, LMGT adeptly balances exploration and exploitation, thereby guiding the agent’s exploratory behavior and enhancing sample efficiency. We have rigorously evaluated LMGT across various RL tasks and evaluated it in the embodied robotic environment Housekeep. Our results demonstrate that LMGT consistently outperforms baseline methods. Furthermore, the findings suggest that our framework can substantially reduce the computational resources required during the RL training phase.

arxiv情報

著者 Yongxin Deng,Xihe Qiu,Jue Chen,Xiaoyu Tan
発行日 2025-05-02 09:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Reward Guidance for Reinforcement Learning Tasks Based on Large Language Models: The LMGT Framework はコメントを受け付けていません

On the Limitations of Steering in Language Model Alignment

要約

ステアリングベクターは、推論時に言語モデルの振る舞いを整列させる有望なアプローチである。本稿では、アライメントメカニズムとしてのステアリングベクトルの限界を評価するためのフレームワークを提案する。変換フック介入と反意語ベースの関数ベクトルのフレームワークを用いて、ステアリングの有効性におけるプロンプト構造とコンテキストの複雑さの役割を評価する。その結果、ステアリングベクターは、価値アライメントなどの特定のアライメントタスクには有望であるが、LLMにおける汎用的なアライメント、特に複雑なシナリオにおいては、強固な基盤を提供しない可能性があることが示された。我々は、推論モデルのステアリング能力に関する今後の研究のための方法論的基礎を確立する。

要約(オリジナル)

Steering vectors are a promising approach to aligning language model behavior at inference time. In this paper, we propose a framework to assess the limitations of steering vectors as alignment mechanisms. Using a framework of transformer hook interventions and antonym-based function vectors, we evaluate the role of prompt structure and context complexity in steering effectiveness. Our findings indicate that steering vectors are promising for specific alignment tasks, such as value alignment, but may not provide a robust foundation for general-purpose alignment in LLMs, particularly in complex scenarios. We establish a methodological foundation for future investigations into steering capabilities of reasoning models.

arxiv情報

著者 Chebrolu Niranjan,Kokil Jaidka,Gerard Christopher Yeo
発行日 2025-05-02 10:08:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | On the Limitations of Steering in Language Model Alignment はコメントを受け付けていません

Harmonizing Intra-coherence and Inter-divergence in Ensemble Attacks for Adversarial Transferability

要約

モデルアンサンブル攻撃の開発により、敵対的な例の移植性が大幅に向上したが、この進歩はディープニューラルネットワークのセキュリティに深刻な脅威をもたらしている。しかし、既存の手法は、モデル間で共有される勾配の方向性の捕捉が不十分であることと、適応的な重み割り当てメカニズムの欠如という2つの重大な課題に直面している。これらの問題に対処するために、我々は、敵対的な例生成に初めて領域汎化を導入した、新しい手法Harmonized Ensemble for Adversarial Transferability (HEAT)を提案する。HEATは2つの主要なモジュールから構成される:コンセンサス勾配方向合成器は、特異値分解を用いて共有勾配方向を合成し、デュアルハーモニーウェイトオーケストレータは、個々のモデル内の勾配を安定化させるドメイン内の一貫性と、モデル間の伝達性を高めるドメイン間の多様性のバランスを動的に調整する。実験結果は、HEATが様々なデータセットや設定において既存の手法を大幅に上回ることを実証しており、敵対的攻撃研究に新たな視点と方向性を提供している。

要約(オリジナル)

The development of model ensemble attacks has significantly improved the transferability of adversarial examples, but this progress also poses severe threats to the security of deep neural networks. Existing methods, however, face two critical challenges: insufficient capture of shared gradient directions across models and a lack of adaptive weight allocation mechanisms. To address these issues, we propose a novel method Harmonized Ensemble for Adversarial Transferability (HEAT), which introduces domain generalization into adversarial example generation for the first time. HEAT consists of two key modules: Consensus Gradient Direction Synthesizer, which uses Singular Value Decomposition to synthesize shared gradient directions; and Dual-Harmony Weight Orchestrator which dynamically balances intra-domain coherence, stabilizing gradients within individual models, and inter-domain diversity, enhancing transferability across models. Experimental results demonstrate that HEAT significantly outperforms existing methods across various datasets and settings, offering a new perspective and direction for adversarial attack research.

arxiv情報

著者 Zhaoyang Ma,Zhihao Wu,Wang Lu,Xin Gao,Jinghang Yue,Taolin Zhang,Lipo Wang,Youfang Lin,Jing Wang
発行日 2025-05-02 10:17:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Harmonizing Intra-coherence and Inter-divergence in Ensemble Attacks for Adversarial Transferability はコメントを受け付けていません

Distilling Two-Timed Flow Models by Separately Matching Initial and Terminal Velocities

要約

フローマッチングモデルは、よく知られたノイズ分布($p_0$)とデータ分布($p_1$)の間を補間する確率経路${ p_t \}_{0 Γ t Γ 1}$を生成する時間依存ベクトル場$v_t(x)$を学習する。これは、1回の関数評価で、初期時刻$s$の分布に属するサンプルを、終端時刻$t$の分布に属する別のサンプルに変換することができるemph{two-timed flow model} (TTFM) $phi_{s,x}(t)$に分解することができる。この損失関数は、Boffiらによって提案されたLagrangian Flow Map Distillation (LFMD)損失を拡張したもので、時間$s$における初期速度をマッチングさせるために冗長項を追加し、時間$t$における終端速度項から微分を除去し、指数移動平均(EMA)によって安定化された学習中のモデルのバージョンを用いて目標終端平均速度を計算する。予備実験によれば、我々の損失は、複数の種類のデータセットとモデルアーキテクチャにおいて、ベースラインよりも優れた少数ステップ生成性能をもたらす。

要約(オリジナル)

A flow matching model learns a time-dependent vector field $v_t(x)$ that generates a probability path $\{ p_t \}_{0 \leq t \leq 1}$ that interpolates between a well-known noise distribution ($p_0$) and the data distribution ($p_1$). It can be distilled into a \emph{two-timed flow model} (TTFM) $\phi_{s,x}(t)$ that can transform a sample belonging to the distribution at an initial time $s$ to another belonging to the distribution at a terminal time $t$ in one function evaluation. We present a new loss function for TTFM distillation called the \emph{initial/terminal velocity matching} (ITVM) loss that extends the Lagrangian Flow Map Distillation (LFMD) loss proposed by Boffi et al. by adding redundant terms to match the initial velocities at time $s$, removing the derivative from the terminal velocity term at time $t$, and using a version of the model under training, stabilized by exponential moving averaging (EMA), to compute the target terminal average velocity. Preliminary experiments show that our loss leads to better few-step generation performance on multiple types of datasets and model architectures over baselines.

arxiv情報

著者 Pramook Khungurn,Pratch Piyawongwisal,Sira Sriswadi,Supasorn Suwajanakorn
発行日 2025-05-02 10:17:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Distilling Two-Timed Flow Models by Separately Matching Initial and Terminal Velocities はコメントを受け付けていません

DConAD: A Differencing-based Contrastive Representation Learning Framework for Time Series Anomaly Detection

要約

時系列異常検知は、様々な応用領域におけるリスク識別や障害検知のために重要である。教師なし学習法は、ラベルを必要としないため、広く普及している。しかしながら、異常パターンの多様性、異常の疎らさ、データの大規模化と複雑化によってもたらされる課題により、これらの手法は、異常を識別するためのロバストで代表的な時系列内の依存関係を捕捉できないことが多い。時系列の正常パターンを捉えるモデルの能力を向上させ、高品質な事前知識への依存によって引き起こされるモデリング能力の後退を回避するために、我々は時系列異常検出のための差分ベースの対照表現学習フレームワーク(DConAD)を提案する。具体的には、DConADは時系列に関する付加的な情報を提供するために差分データを生成し、時空間依存性を捕捉するために変換器ベースのアーキテクチャを利用する。さらに、DConADは、再構成からの乖離を避けるために正のサンプルのみを使用し、収束を強制するために停止勾配戦略を展開する、新しいKLダイバージェンスに基づく対比学習パラダイムを実装する。5つの公開データセットを用いた広範な実験により、9つのベースラインと比較したDConADの優位性と有効性が示されている。コードはhttps://github.com/shaieesss/DConAD。

要約(オリジナル)

Time series anomaly detection holds notable importance for risk identification and fault detection across diverse application domains. Unsupervised learning methods have become popular because they have no requirement for labels. However, due to the challenges posed by the multiplicity of abnormal patterns, the sparsity of anomalies, and the growth of data scale and complexity, these methods often fail to capture robust and representative dependencies within the time series for identifying anomalies. To enhance the ability of models to capture normal patterns of time series and avoid the retrogression of modeling ability triggered by the dependencies on high-quality prior knowledge, we propose a differencing-based contrastive representation learning framework for time series anomaly detection (DConAD). Specifically, DConAD generates differential data to provide additional information about time series and utilizes transformer-based architecture to capture spatiotemporal dependencies, which enhances the robustness of unbiased representation learning ability. Furthermore, DConAD implements a novel KL divergence-based contrastive learning paradigm that only uses positive samples to avoid deviation from reconstruction and deploys the stop-gradient strategy to compel convergence. Extensive experiments on five public datasets show the superiority and effectiveness of DConAD compared with nine baselines. The code is available at https://github.com/shaieesss/DConAD.

arxiv情報

著者 Wenxin Zhang,Xiaojian Lin,Wenjun Yu,Guangzhen Yao,jingxiang Zhong,Yu Li,Renda Han,Songcheng Xu,Hao Shi,Cuicui Luo
発行日 2025-05-02 10:25:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | DConAD: A Differencing-based Contrastive Representation Learning Framework for Time Series Anomaly Detection はコメントを受け付けていません

AT-Drone: Benchmarking Adaptive Teaming in Multi-Drone Pursuit

要約

適応的チーミング(エージェントが、事前に協調することなく、不慣れなチームメイトと効果的に協調する能力)は、バーチャルビデオゲームでは広く研究されているが、現実世界のマルチロボット文脈では見過ごされている。しかし、このような適応的な協調は、国境監視、捜索救助、対テロ作戦などの実世界のアプリケーションにとって極めて重要である。このギャップに対処するために、我々はAT-Droneを紹介する。AT-Droneは、マルチドローン追跡シナリオにおける適応的なチーム戦略の包括的な訓練と評価を容易にするために明示的に設計された初の専用ベンチマークである。AT-Droneは以下のような重要な貢献をしている:(1) アダプティブ・チーミングのマルチドローン追跡タスクを直感的かつ迅速に設定できる、適応可能なシミュレーション環境設定ツール。(2) シミュレーションの洞察を、エッジデバイスとCrazyflieドローンを使用した実用的なドローン評価にシームレスに変換する、合理化された実世界展開パイプライン。(3)分散トレーニングフレームワークと統合された新しいアルゴリズムズー。(4) アダプティブ・チーミングのパフォーマンスを厳密に評価するために新たに設計された未公開ドローン動物園を用いた標準化された評価プロトコル。段階的に難しくなる4つのマルチドローン追跡シナリオにおける包括的な実験評価により、AT-Droneがアダプティブ・チーミング研究を推進する上で有効であることが確認された。実世界でのドローン実験により、AT-Droneの現実的な実現可能性と現実的なロボット操作への有用性がさらに検証された。動画、コード、重さは、⽶⽊url{https://sites.google.com/view/at-drone} でご覧いただけます。

要約(オリジナル)

Adaptive teaming-the capability of agents to effectively collaborate with unfamiliar teammates without prior coordination-is widely explored in virtual video games but overlooked in real-world multi-robot contexts. Yet, such adaptive collaboration is crucial for real-world applications, including border surveillance, search-and-rescue, and counter-terrorism operations. To address this gap, we introduce AT-Drone, the first dedicated benchmark explicitly designed to facilitate comprehensive training and evaluation of adaptive teaming strategies in multi-drone pursuit scenarios. AT-Drone makes the following key contributions: (1) An adaptable simulation environment configurator that enables intuitive and rapid setup of adaptive teaming multi-drone pursuit tasks, including four predefined pursuit environments. (2) A streamlined real-world deployment pipeline that seamlessly translates simulation insights into practical drone evaluations using edge devices and Crazyflie drones. (3) A novel algorithm zoo integrated with a distributed training framework, featuring diverse algorithms explicitly tailored, for the first time, to multi-pursuer and multi-evader settings. (4) Standardized evaluation protocols with newly designed unseen drone zoos, explicitly designed to rigorously assess the performance of adaptive teaming. Comprehensive experimental evaluations across four progressively challenging multi-drone pursuit scenarios confirm AT-Drone’s effectiveness in advancing adaptive teaming research. Real-world drone experiments further validate its practical feasibility and utility for realistic robotic operations. Videos, code and weights are available at \url{https://sites.google.com/view/at-drone}.

arxiv情報

著者 Yang Li,Junfan Chen,Feng Xue,Jiabin Qiu,Wenbin Li,Qingrui Zhang,Ying Wen,Wei Pan
発行日 2025-05-02 10:33:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO | AT-Drone: Benchmarking Adaptive Teaming in Multi-Drone Pursuit はコメントを受け付けていません

LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures

要約

大規模言語モデル(LLM)が進化し続ける中、その学習段階とモデル配備後の両方で発生する可能性のあるセキュリティ上の脅威と脆弱性を評価することは極めて重要です。本調査では、LLMを標的とする様々な攻撃を定義・分類し、学習段階で発生するものと、既に学習済みのモデルに影響を与えるものとを区別することを目指す。これらの攻撃の徹底的な分析と、そのような脅威を軽減するために設計された防御メカニズムの探求を行う。防御は、予防に基づく防御と検出に基づく防御の2つの主要なカテゴリーに分類される。さらに、可能性のある攻撃とそれに対応する防御戦略を要約している。また、異なるセキュリティ脅威に対する既知の防御メカニズムの有効性の評価も提供する。本調査の目的は、LLMの安全性を確保するための構造化されたフレームワークを提供すると同時に、新たなセキュリティ上の課題に対する防御を改善・強化するためにさらなる研究が必要な分野を特定することである。

要約(オリジナル)

As large language models (LLMs) continue to evolve, it is critical to assess the security threats and vulnerabilities that may arise both during their training phase and after models have been deployed. This survey seeks to define and categorize the various attacks targeting LLMs, distinguishing between those that occur during the training phase and those that affect already trained models. A thorough analysis of these attacks is presented, alongside an exploration of defense mechanisms designed to mitigate such threats. Defenses are classified into two primary categories: prevention-based and detection-based defenses. Furthermore, our survey summarizes possible attacks and their corresponding defense strategies. It also provides an evaluation of the effectiveness of the known defense mechanisms for the different security threats. Our survey aims to offer a structured framework for securing LLMs, while also identifying areas that require further research to improve and strengthen defenses against emerging security challenges.

arxiv情報

著者 Francisco Aguilera-Martínez,Fernando Berzal
発行日 2025-05-02 10:35:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.LG, cs.NE | LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures はコメントを受け付けていません