From Flat to Hierarchical: Extracting Sparse Representations with Matching Pursuit

要約

ニューラルネットワーク表現は、抽象的で解釈可能な特徴を、直線的にアクセス可能な、ほぼ直交する方向として符号化するという仮説に動機づけられ、スパースオートエンコーダ(SAE)は、解釈可能性において人気のあるツールとなっている。しかし、最近の研究では、階層的、非線形的、多次元的な特徴を示すなど、この仮説の範囲外のモデル表現の現象性が示されている。SAEは、その動機となる仮説とは相反する構造を持つ特徴を表現しているのだろうか?もしそうでないなら、このミスマッチを回避することが、当該特徴を特定し、神経回路網表現に関する更なる洞察を得るのに役立つのだろうか?これらの問いに答えるために、我々は構築ベースのアプローチを取り、スパースコーディングから一般的なマッチング追求(MP)アルゴリズムを再文脈化し、MP-SAEを設計する–残差ガイドされたステップのシーケンスにエンコーダを展開するSAEであり、階層的で非線形にアクセス可能な特徴を捕捉することを可能にする。(i)階層的概念は、既存のSAEでは忠実に捕捉できない、条件付き直交特徴を引き起こす。(ii)MP-SAEの非線形符号化ステップは、非常に意味のある特徴を復元し、視覚言語モデルにおける異なるモダリティの一見二項対立的な表現空間における共有構造を解明するのに役立つ。また、MP-SAEの逐次エンコーダの原理は、推論時に適応的なスパース性という付加的な利点をもたらすことも示す。全体として、我々の結果は、解釈可能性は表現の現象論から始まり、それに適合する仮定から手法が生まれるべきであるという考えに信憑性を与えるものであると主張する。

要約(オリジナル)

Motivated by the hypothesis that neural network representations encode abstract, interpretable features as linearly accessible, approximately orthogonal directions, sparse autoencoders (SAEs) have become a popular tool in interpretability. However, recent work has demonstrated phenomenology of model representations that lies outside the scope of this hypothesis, showing signatures of hierarchical, nonlinear, and multi-dimensional features. This raises the question: do SAEs represent features that possess structure at odds with their motivating hypothesis? If not, does avoiding this mismatch help identify said features and gain further insights into neural network representations? To answer these questions, we take a construction-based approach and re-contextualize the popular matching pursuits (MP) algorithm from sparse coding to design MP-SAE — an SAE that unrolls its encoder into a sequence of residual-guided steps, allowing it to capture hierarchical and nonlinearly accessible features. Comparing this architecture with existing SAEs on a mixture of synthetic and natural data settings, we show: (i) hierarchical concepts induce conditionally orthogonal features, which existing SAEs are unable to faithfully capture, and (ii) the nonlinear encoding step of MP-SAE recovers highly meaningful features, helping us unravel shared structure in the seemingly dichotomous representation spaces of different modalities in a vision-language model, hence demonstrating the assumption that useful features are solely linearly accessible is insufficient. We also show that the sequential encoder principle of MP-SAE affords an additional benefit of adaptive sparsity at inference time, which may be of independent interest. Overall, we argue our results provide credence to the idea that interpretability should begin with the phenomenology of representations, with methods emerging from assumptions that fit it.

arxiv情報

著者 Valérie Costa,Thomas Fel,Ekdeep Singh Lubana,Bahareh Tolooshams,Demba Ba
発行日 2025-06-03 17:24:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | From Flat to Hierarchical: Extracting Sparse Representations with Matching Pursuit はコメントを受け付けていません

On Weak-to-Strong Generalization and f-Divergence

要約

弱いモデルから強いモデルへの汎化(W2SG)は、弱いスーパーバイザーからのスーパービジョンを活用することで、事前に訓練された強いモデルの能力を刺激する有望なパラダイムとして登場した。強力なモデルの性能を向上させるために、既存の手法は、しばしば、追加の弱いモデルや複雑な手順を必要とし、かなりの計算量とメモリのオーバーヘッドをもたらす。様々な機械学習領域における$f$-発散損失の有効性に動機づけられ、我々はW2SGにおける情報理論的損失関数の枠組みとして$f$-発散を導入する。我々の理論的分析により、W2SGにおける様々な$f$-発散損失の基本的な限界と等価性を、標本複雑度の境界と情報理論的洞察により明らかにする。また、KLダイバージェンスのような広く用いられている指標を一般化した$f$-ダイバージェンス損失が、実際の強モデルの汎化性とノイズ耐性を効果的に改善することを実証的に示す。

要約(オリジナル)

Weak-to-strong generalization (W2SG) has emerged as a promising paradigm for stimulating the capabilities of strong pre-trained models by leveraging supervision from weaker supervisors. To improve the performance of the strong model, existing methods often require additional weak models or complex procedures, leading to substantial computational and memory overhead. Motivated by the effectiveness of $f$-divergence loss in various machine learning domains, we introduce $f$-divergence as an information-theoretic loss function framework in W2SG. Our theoretical analysis reveals fundamental limitations and equivalence of different $f$-divergence losses in W2SG, supported by sample complexity bounds and information-theoretic insights. We empirically demonstrate that $f$-divergence loss, which generalizes widely-used metrics like KL divergence, effectively improves generalization and noise tolerance of the strong model in practice.

arxiv情報

著者 Wei Yao,Gengze Xu,Huayi Tang,Wenkai Yang,Donglin Di,Ziqiao Wang,Yong Liu
発行日 2025-06-03 17:40:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | On Weak-to-Strong Generalization and f-Divergence はコメントを受け付けていません

Rectified Flows for Fast Multiscale Fluid Flow Modeling

要約

流体の統計的モデリングは、そのマルチスケールダイナミクスと初期条件に対する極端な感受性のために、非常に困難である。最近提案された条件付き拡散モデルは高い忠実度を達成しているが、通常、推論時に何百もの確率的サンプリングステップを必要とする。我々は、時間依存の速度場を学習し、入力から出力までの分布をほぼ直線の軌跡に沿って輸送する、整流フローフレームワークを導入する。サンプリングを、この直線化された流れ場に沿った常微分方程式(ODE)を解くこととして捉えることで、本手法は、予測の忠実度を犠牲にすることなく、各積分ステップを、標準的なスコアベースの拡散の128ステップ(以上)に対して、わずか8ステップと、より効果的に行うことができる。困難なマルチスケールフローベンチマークでの実験から、整流フローは拡散モデルと同じ事後分布を回復し、MSEで訓練されたベースラインが見逃す微細な特徴を保持し、推論時間の数分の一で高解像度のサンプルを提供することが示された。

要約(オリジナル)

The statistical modeling of fluid flows is very challenging due to their multiscale dynamics and extreme sensitivity to initial conditions. While recently proposed conditional diffusion models achieve high fidelity, they typically require hundreds of stochastic sampling steps at inference. We introduce a rectified flow framework that learns a time-dependent velocity field, transporting input to output distributions along nearly straight trajectories. By casting sampling as solving an ordinary differential equation (ODE) along this straighter flow field, our method makes each integration step much more effective, using as few as eight steps versus (more than) 128 steps in standard score-based diffusion, without sacrificing predictive fidelity. Experiments on challenging multiscale flow benchmarks show that rectified flows recover the same posterior distributions as diffusion models, preserve fine-scale features that MSE-trained baselines miss, and deliver high-resolution samples in a fraction of inference time.

arxiv情報

著者 Victor Armegioiu,Yannick Ramic,Siddhartha Mishra
発行日 2025-06-03 17:40:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Rectified Flows for Fast Multiscale Fluid Flow Modeling はコメントを受け付けていません

Unifying and extending Diffusion Models through PDEs for solving Inverse Problems

要約

拡散モデルは、コンピュータビジョンや科学的機械学習(SciML)に応用される強力な生成ツールとして登場し、大規模な確率的逆問題の解決に用いられてきた。従来、これらのモデルは変分推論、ノイズ除去、統計的信号処理、確率微分方程式の原理を用いて導出されてきた。従来とは対照的に、本研究では線形偏微分方程式の考え方を用いて拡散モデルを導出し、このアプローチが、順過程と逆過程の構成的な導出、複数の定式化とサンプリング戦略の統一的な導出、分散保存モデルの新しいクラスの発見など、いくつかの利点を持つことを示す。また、これらのモデルの条件付きバージョンを適用して、正準条件付き密度推定問題や困難な逆問題を解く。これらの問題は、本研究における様々な定式化とサンプリング戦略の性能を系統的に定量化するためのベンチマークを確立するのに役立つ。最後に、単一の拡散モデルを複数の測定オペレータから得られた測定値に適用できるメカニズムを特定し、実装する。本原稿の内容を総合すると、物理学に基づく逆問題の解決への拡散モデルの適用に関する新たな理解と、いくつかの新たな方向性が得られる。

要約(オリジナル)

Diffusion models have emerged as powerful generative tools with applications in computer vision and scientific machine learning (SciML), where they have been used to solve large-scale probabilistic inverse problems. Traditionally, these models have been derived using principles of variational inference, denoising, statistical signal processing, and stochastic differential equations. In contrast to the conventional presentation, in this study we derive diffusion models using ideas from linear partial differential equations and demonstrate that this approach has several benefits that include a constructive derivation of the forward and reverse processes, a unified derivation of multiple formulations and sampling strategies, and the discovery of a new class of variance preserving models. We also apply the conditional version of these models to solve canonical conditional density estimation problems and challenging inverse problems. These problems help establish benchmarks for systematically quantifying the performance of different formulations and sampling strategies in this study and for future studies. Finally, we identify and implement a mechanism through which a single diffusion model can be applied to measurements obtained from multiple measurement operators. Taken together, the contents of this manuscript provide a new understanding of and several new directions in the application of diffusion models to solving physics-based inverse problems.

arxiv情報

著者 Agnimitra Dasgupta,Alexsander Marciano da Cunha,Ali Fardisi,Mehrnegar Aminy,Brianna Binder,Bryan Shaddy,Assad A Oberai
発行日 2025-06-03 17:49:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.CO, stat.ML | Unifying and extending Diffusion Models through PDEs for solving Inverse Problems はコメントを受け付けていません

Validating remotely sensed biomass estimates with forest inventory data in the western US

要約

地上部バイオマス(AGB)とその密度(AGBD)を高解像度でモニタリングすることは、炭素計算と生態系管理に不可欠である。NASAの全球生態系動態調査(GEDI)LiDARミッションは、AGBD推定のためのグローバルに分布した参照測定値を提供する一方で、GEDIに基づく商用リモートセンシング製品の大部分は、厳密な独立した検証を行わないままである。ここでは、terraPulse, Inc.が提供するAGBDデータセットの独立した地域検証を、米国森林局の森林インベントリーと分析(FIA)プログラムからの独立した参照データに基づいて行う。ユタ、ネバダ、ワシントンの各州にまたがる64,000ヘクタールの六角形と米国の郡に集約したところ、terraPulseとFIAの推定値の間に非常に強い一致が見られた。ヘキサゴンスケールでは、R2=0.88、RMSE=26.68 Mg/ha、相関係数(r)は0.94であった。郡スケールでは、一致度はR2=0.90、RMSE=32.62 Mg/ha、勾配=1.07、r=0.95に改善した。空間的および統計的分析によると、非森林地域ではテラパルスAGBD値がFIAの推定値を上回る傾向が見られたが、これはFIAの非森林植生のサンプリングが限られているためと考えられる。また、terraPulse AGBDの推定値は、バイオマスの多い森林では低い値を示しましたが、これは光学リモートセンシングの共変量が飽和したためと考えられます。本研究は、独立したFIAデータを使用した包括的なAGBD検証のためのスケーラブルなフレームワークを提供し、グローバルバイオマスモニタリングのための新しい商用データセットのベンチマーク検証を行うことで、運用炭素モニタリングの進歩をもたらした。

要約(オリジナル)

Monitoring aboveground biomass (AGB) and its density (AGBD) at high resolution is essential for carbon accounting and ecosystem management. While NASA’s spaceborne Global Ecosystem Dynamics Investigation (GEDI) LiDAR mission provides globally distributed reference measurements for AGBD estimation, the majority of commercial remote sensing products based on GEDI remain without rigorous or independent validation. Here, we present an independent regional validation of an AGBD dataset offered by terraPulse, Inc., based on independent reference data from the US Forest Service Forest Inventory and Analysis (FIA) program. Aggregated to 64,000-hectare hexagons and US counties across the US states of Utah, Nevada, and Washington, we found very strong agreement between terraPulse and FIA estimates. At the hexagon scale, we report R2 = 0.88, RMSE = 26.68 Mg/ha, and a correlation coefficient (r) of 0.94. At the county scale, agreement improves to R2 = 0.90, RMSE =32.62 Mg/ha, slope = 1.07, and r = 0.95. Spatial and statistical analyses indicated that terraPulse AGBD values tended to exceed FIA estimates in non-forest areas, likely due to FIA’s limited sampling of non-forest vegetation. The terraPulse AGBD estimates also exhibited lower values in high-biomass forests, likely due to saturation effects in its optical remote-sensing covariates. This study advances operational carbon monitoring by delivering a scalable framework for comprehensive AGBD validation using independent FIA data, as well as a benchmark validation of a new commercial dataset for global biomass monitoring.

arxiv情報

著者 Xiuyu Cao,Joseph O. Sexton,Panshi Wang,Dimitrios Gounaridis,Neil H. Carter,Kai Zhu
発行日 2025-06-03 17:50:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.AP | Validating remotely sensed biomass estimates with forest inventory data in the western US はコメントを受け付けていません

Zero-Shot Time Series Forecasting with Covariates via In-Context Learning

要約

ゼロショット予測が可能な事前学習済み時系列モデルは、時系列予測のパフォーマンスとアクセシビリティの両方を向上させる重要な可能性を示している。しかし、既存の事前学習済みモデルは共変量をサポートしていないか、効果的に組み込むことができない。我々は、コンテキスト内学習によって共変量を利用するゼロショット予測モデルであるCOSMICを紹介する。データ不足の課題に対処するため、共変量を含むデータセットを必要とせずにCOSMICの学習を可能にする情報的共変量補強を提案する。COSMICは、共変量の有無に関わらず、ゼロショット予測において最先端の性能を達成した。我々の定量的・定性的分析は、COSMICがゼロショット予測において共変量を効果的に活用していることを示している。

要約(オリジナル)

Pretrained time series models, capable of zero-shot forecasting, have demonstrated significant potential in enhancing both the performance and accessibility of time series forecasting. However, existing pretrained models either do not support covariates or fail to incorporate them effectively. We introduce COSMIC, a zero-shot forecasting model that utilizes covariates via in-context learning. To address the challenge of data scarcity, we propose Informative Covariate Augmentation, which enables the training of COSMIC without requiring any datasets that include covariates. COSMIC achieves state-of-the-art performance in zero-shot forecasting, both with and without covariates. Our quantitative and qualitative analysis demonstrates that COSMIC effectively leverages covariates in zero-shot forecasting.

arxiv情報

著者 Andreas Auer,Raghul Parthipan,Pedro Mercado,Abdul Fatir Ansari,Lorenzo Stella,Bernie Wang,Michael Bohlke-Schneider,Syama Sundar Rangapuram
発行日 2025-06-03 17:56:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Zero-Shot Time Series Forecasting with Covariates via In-Context Learning はコメントを受け付けていません

Not All Tokens Are Meant to Be Forgotten

要約

大規模言語モデル(LLM)は、膨大なテキストコーパスで事前に訓練され、人間レベルの言語理解、推論、意思決定能力を発揮する。しかし、LLMは個人情報や著作権で保護されたコンテンツなど、不要な情報を記憶してしまう傾向があり、プライバシーや法律上の重大な問題を引き起こしている。非学習は有望な解決策として浮上しているが、既存の方法は過剰忘却という重大な課題に直面している。この問題は、忘却サンプルに含まれる全てのトークンの生成を無差別に抑制するため、モデルの実用性が大幅に損なわれることに起因する。この課題を克服するために、我々は、(1)忘却サンプル中の不要語(UW)と一般語(GW)を区別するように設計された柔軟なターゲット情報識別器と、(2)UWに関連する不要情報を学習解除するためのロジット選好損失と、GW中の一般情報を保持するための保存損失を活用する新しいターゲット選好最適化アプローチから構成される、ターゲット情報忘却(TIF)フレームワークを導入する。TOFUとMUSEベンチマークを用いた広範な実験により、提案するTIFフレームワークが、モデルの有用性を維持しながら学習解除の有効性を高め、最先端の結果を達成することを実証する。

要約(オリジナル)

Large Language Models (LLMs), pre-trained on massive text corpora, exhibit remarkable human-level language understanding, reasoning, and decision-making abilities. However, they tend to memorize unwanted information, such as private or copyrighted content, raising significant privacy and legal concerns. Unlearning has emerged as a promising solution, but existing methods face a significant challenge of over-forgetting. This issue arises because they indiscriminately suppress the generation of all the tokens in forget samples, leading to a substantial loss of model utility. To overcome this challenge, we introduce the Targeted Information Forgetting (TIF) framework, which consists of (1) a flexible targeted information identifier designed to differentiate between unwanted words (UW) and general words (GW) in the forget samples, and (2) a novel Targeted Preference Optimization approach that leverages Logit Preference Loss to unlearn unwanted information associated with UW and Preservation Loss to retain general information in GW, effectively improving the unlearning process while mitigating utility degradation. Extensive experiments on the TOFU and MUSE benchmarks demonstrate that the proposed TIF framework enhances unlearning effectiveness while preserving model utility and achieving state-of-the-art results.

arxiv情報

著者 Xiangyu Zhou,Yao Qiang,Saleh Zare Zade,Douglas Zytko,Prashant Khanduri,Dongxiao Zhu
発行日 2025-06-03 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Not All Tokens Are Meant to Be Forgotten はコメントを受け付けていません

Curvature Tuning: Provable Training-free Model Steering From a Single Parameter

要約

モデルサイズとデータサイズの拡大縮小は、AIの展望を再形成し、下流のタスクを解決するための標準的なパラダイムとして、事前に訓練されたモデルを微調整することを確立した。しかし、一般的なファインチューニング手法は重み適応に依存しており、解釈可能性に欠け、ヒューリスティックに選択されたハイパーパラメータに依存することが多い。本論文では、視点を変え、スプライン演算子というレンズを通して、重みから活性化関数に焦点を移す。曲率チューニング(Curvature Tuning: CT)は、活性化関数に1つのハイパーパラメータを注入することで、モデルの決定境界を調整する、解釈可能で原理的なステアリング手法である。我々は、CTがモデルの決定境界の曲率を証明的に調整し、より基本的には、モデルを滑らかな関数空間に投影することを示す。このハイパーパラメータを学習可能にすることで、新規でパラメータ効率の高いファインチューニング手法が生まれる。経験的に、CTは汎化性と頑健性の両方を向上させる。例えば、12個のデータセットにおいて、ResNet-50/152のダウンストリーム精度を線形プロービングより7.14%/8.46%、LoRAより4.64%/1.70%向上させ、RobustBenchの$ell_infty$ベンチマークにおけるロバスト精度を1032.64%/1494.46%向上させる。我々のコードはhttps://github.com/Leon-Leyang/curvature-tuning。

要約(オリジナル)

The scaling of model and data sizes has reshaped the AI landscape, establishing finetuning pretrained models as the standard paradigm for solving downstream tasks. However, dominant finetuning methods typically rely on weight adaptation, often lack interpretability, and depend on heuristically chosen hyperparameters. In this paper, we take a different perspective and shift the focus from weights to activation functions, viewing them through the lens of spline operators. We propose Curvature Tuning (CT), an interpretable and principled steering method that modulates a model’s decision boundary by injecting a single hyperparameter into its activation functions. We show that CT provably adjusts model decision boundary curvature and, more fundamentally, projects a model onto a space of smooth functions-thereby complementing current finetuning methods, whose effect lies primarily in feature adaptation. Making this hyperparameter trainable gives rise to a novel and highly parameter-efficient finetuning method. Empirically, CT improves both generalization and robustness. For example, it boosts downstream accuracy of ResNet-50/152 by 7.14%/8.46% over linear probing and 4.64%/1.70% over LoRA across 12 datasets, and improves robust accuracy on the $\ell_\infty$ benchmark from RobustBench by 1032.64%/1494.46%. Our code is available at https://github.com/Leon-Leyang/curvature-tuning.

arxiv情報

著者 Leyang Hu,Matteo Gamba,Randall Balestriero
発行日 2025-06-03 17:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Curvature Tuning: Provable Training-free Model Steering From a Single Parameter はコメントを受け付けていません

Adaptive Graph Pruning for Multi-Agent Communication

要約

大規模言語モデル(Large Language Model: LLM)に基づくマルチエージェントシステムは、特に協調的なコミュニケーションによって強化された場合に、様々なタスクにおいて顕著な性能を示す。しかしながら、現在の手法は、固定的なエージェント数と静的なコミュニケーション構造に依存していることが多く、タスクの複雑さの変化に適応する能力が制限されている。本論文では、適応的グラフ刈り込み(AGP)を提案する。これは、エージェントの量(ハード刈り込み)と通信トポロジー(ソフト刈り込み)を共同で最適化する、新しいタスク適応型マルチエージェントコラボレーションフレームワークである。具体的には、本手法は2段階の学習戦略を採用している。まず、異なるエージェント量に対してソフト・プルーニング・ネットワークを独立に学習し、特定のタスクにおけるエージェント量に応じた最適な完全グラフと位置マスクを決定する。次に、最大完全グラフ内でハード・プルーニングとソフト・プルーニングを共同で最適化し、タスクごとにエージェント数と通信トポロジーを動的に設定する。広範な実験により、本アプローチは以下のことが実証された: (1) 高性能、6つのベンチマークで最先端の結果を達成し、複数の主流LLMアーキテクチャで一貫して一般化する。84%$; (2) Task-adaptive, 特定のタスクに合わせて最適化された通信トポロジを動的に構築し、3つのタスクカテゴリ(一般的推論、数学的推論、コード生成)すべてにおいて極めて高い性能を実現。(3) Token-economical, 少ない学習ステップとトークン消費を同時に実現し、トークン消費を$90%+$減少。その性能は、6つのベンチマークの下で約10ステップの訓練を行った後、既存のベースラインを上回る。

要約(オリジナル)

Large Language Model (LLM) based multi-agent systems have shown remarkable performance in various tasks, especially when enhanced through collaborative communication. However, current methods often rely on a fixed number of agents and static communication structures, limiting their ability to adapt to varying task complexities. In this paper, we propose Adaptive Graph Pruning (AGP), a novel task-adaptive multi-agent collaboration framework that jointly optimizes agent quantity (hard-pruning) and communication topology (soft-pruning). Specifically, our method employs a two-stage training strategy: firstly, independently training soft-pruning networks for different agent quantities to determine optimal agent-quantity-specific complete graphs and positional masks across specific tasks; and then jointly optimizing hard-pruning and soft-pruning within a maximum complete graph to dynamically configure the number of agents and their communication topologies per task. Extensive experiments demonstrate that our approach is: (1) High-performing, achieving state-of-the-art results across six benchmarks and consistently generalizes across multiple mainstream LLM architectures, with a increase in performance of $2.58\%\sim 9.84\%$; (2) Task-adaptive, dynamically constructing optimized communication topologies tailored to specific tasks, with an extremely high performance in all three task categories (general reasoning, mathematical reasoning, and code generation); (3) Token-economical, having fewer training steps and token consumption at the same time, with a decrease in token consumption of $90\%+$; and (4) Training-efficient, achieving high performance with very few training steps compared with other methods. The performance will surpass the existing baselines after about ten steps of training under six benchmarks.

arxiv情報

著者 Boyi Li,Zhonghan Zhao,Der-Horng Lee,Gaoang Wang
発行日 2025-06-03 14:46:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.MA | Adaptive Graph Pruning for Multi-Agent Communication はコメントを受け付けていません

Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs

要約

大規模言語モデル(Large Language Models: LLM)は、その性能の高さにもかかわらず、ジェイルブレイク(脱獄)攻撃に対して脆弱なままであり、その安全機構が損なわれる可能性がある。既存の研究では、ブルートフォース最適化や手動設計に頼ることが多く、実世界のシナリオにおける潜在的なリスクを発見することができない。この問題に対処するために、我々は人間の認知におけるヒューリスティックとバイアスにインスパイアされた新しい脱獄攻撃フレームワーク、ICRTを提案する。単純化効果を活用し、悪意のあるプロンプトの複雑さを軽減するために認知分解を採用する。同時に、関連性バイアスを利用してプロンプトを再編成し、意味的な整合性を高め、有害な出力を効果的に誘導する。さらに、Elo、HodgeRank、Rank Centralityのようなランキング集計法を採用することで、従来の成功か失敗かのバイナリパラダイムを超える、ランキングベースの有害性評価指標を導入し、生成コンテンツの有害性を包括的に定量化する。実験結果は、私たちのアプローチが一貫して主流のLLMの安全メカニズムを回避し、高リスクのコンテンツを生成することを示し、脱獄攻撃のリスクに関する洞察を提供し、より強力な防御戦略に貢献します。

要約(オリジナル)

Despite the remarkable performance of Large Language Models (LLMs), they remain vulnerable to jailbreak attacks, which can compromise their safety mechanisms. Existing studies often rely on brute-force optimization or manual design, failing to uncover potential risks in real-world scenarios. To address this, we propose a novel jailbreak attack framework, ICRT, inspired by heuristics and biases in human cognition. Leveraging the simplicity effect, we employ cognitive decomposition to reduce the complexity of malicious prompts. Simultaneously, relevance bias is utilized to reorganize prompts, enhancing semantic alignment and inducing harmful outputs effectively. Furthermore, we introduce a ranking-based harmfulness evaluation metric that surpasses the traditional binary success-or-failure paradigm by employing ranking aggregation methods such as Elo, HodgeRank, and Rank Centrality to comprehensively quantify the harmfulness of generated content. Experimental results show that our approach consistently bypasses mainstream LLMs’ safety mechanisms and generates high-risk content, providing insights into jailbreak attack risks and contributing to stronger defense strategies.

arxiv情報

著者 Haoming Yang,Ke Ma,Xiaojun Jia,Yingfei Sun,Qianqian Xu,Qingming Huang
発行日 2025-06-03 14:46:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs はコメントを受け付けていません