Graph of Attacks with Pruning: Optimizing Stealthy Jailbreak Prompt Generation for Enhanced LLM Content Moderation

要約

大規模な言語モデル(LLM)がますます普及するにつれて、敵対的な誤用に対する堅牢性が重要であることを保証します。
このペーパーでは、LLMセーフガードを評価および強化するためのステルスジェイルブレイクプロンプトを生成するための高度なアプローチである、剪定による攻撃のグラフ)フレームワークを紹介します。
ギャップは、攻撃パス全体で知識共有を可能にする相互接続されたグラフ構造を実装することにより、既存のツリーベースのLLM脱獄法の制限に対処します。
私たちの実験的評価は、既存の手法に対するギャップの優位性を示しており、攻撃の成功率が20.8%増加し、クエリコストを62.7%削減します。
ギャップは、オープンLLMとクローズドLLMの両方を攻撃するための最先端の方法を一貫して上回り、攻撃成功率は96%を超えています。
さらに、自動化されたシード生成用のGAP-AUTOなどの特殊なバリアント、マルチモーダル攻撃用のGAP-VLMを提示します。
ギャップ生成プロンプトは、コンテンツモデレーションシステムの改善に非常に効果的であり、微調整に使用した場合、真の陽性検出率を108.5%、精度を183.6%増加させます。
実装はhttps://github.com/dsbuddy/gap-llm-safetyで入手できます。

要約(オリジナル)

As large language models (LLMs) become increasingly prevalent, ensuring their robustness against adversarial misuse is crucial. This paper introduces the GAP (Graph of Attacks with Pruning) framework, an advanced approach for generating stealthy jailbreak prompts to evaluate and enhance LLM safeguards. GAP addresses limitations in existing tree-based LLM jailbreak methods by implementing an interconnected graph structure that enables knowledge sharing across attack paths. Our experimental evaluation demonstrates GAP’s superiority over existing techniques, achieving a 20.8% increase in attack success rates while reducing query costs by 62.7%. GAP consistently outperforms state-of-the-art methods for attacking both open and closed LLMs, with attack success rates of >96%. Additionally, we present specialized variants like GAP-Auto for automated seed generation and GAP-VLM for multimodal attacks. GAP-generated prompts prove highly effective in improving content moderation systems, increasing true positive detection rates by 108.5% and accuracy by 183.6% when used for fine-tuning. Our implementation is available at https://github.com/dsbuddy/GAP-LLM-Safety.

arxiv情報

著者 Daniel Schwartz,Dmitriy Bespalov,Zhe Wang,Ninad Kulkarni,Yanjun Qi
発行日 2025-06-13 15:44:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | Graph of Attacks with Pruning: Optimizing Stealthy Jailbreak Prompt Generation for Enhanced LLM Content Moderation はコメントを受け付けていません

Graph-Based Floor Separation Using Node Embeddings and Clustering of WiFi Trajectories

要約

屋内ポジショニングシステム(IPS)は、複雑なマルチストア環境でのロケーションベースのサービスにとってますます不可欠です。
この研究では、Wi-Fi指紋軌跡を使用した床分離のための新しいグラフベースのアプローチを提案し、屋内設定における垂直局在の課題に対処します。
ノードがWi-Fiフィンガープリントを表し、エッジが信号の類似性とコンテキスト遷移によって重み付けされるグラフを作成します。
node2vecは、低次元の埋め込みを生成するために採用されており、その後、K-meansを使用してクラスター化され、異なる床を識別します。
Huawei University Challenge 2021データセットで評価されたこの方法は、従来のコミュニティ検出アルゴリズムを上回り、68.97 \%の精度、61.99 \%のF1スコア、および57.19%の調整されたRANDインデックスを達成します。
前処理されたデータセットと実装コードを公開することにより、この作業は屋内ポジショニングでの研究の進歩に貢献します。
提案されたアプローチは、ノイズとアーキテクチャの複雑さを信号する堅牢性を示し、床レベルのローカリゼーションのためのスケーラブルなソリューションを提供します。

要約(オリジナル)

Indoor positioning systems (IPSs) are increasingly vital for location-based services in complex multi-storey environments. This study proposes a novel graph-based approach for floor separation using Wi-Fi fingerprint trajectories, addressing the challenge of vertical localization in indoor settings. We construct a graph where nodes represent Wi-Fi fingerprints, and edges are weighted by signal similarity and contextual transitions. Node2Vec is employed to generate low-dimensional embeddings, which are subsequently clustered using K-means to identify distinct floors. Evaluated on the Huawei University Challenge 2021 dataset, our method outperforms traditional community detection algorithms, achieving an accuracy of 68.97\%, an F1-score of 61.99\%, and an Adjusted Rand Index of 57.19\%. By publicly releasing the preprocessed dataset and implementation code, this work contributes to advancing research in indoor positioning. The proposed approach demonstrates robustness to signal noise and architectural complexities, offering a scalable solution for floor-level localization.

arxiv情報

著者 Rabia Yasa Kostas,Kahraman Kostas
発行日 2025-06-13 15:48:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG, cs.NI, cs.RO | Graph-Based Floor Separation Using Node Embeddings and Clustering of WiFi Trajectories はコメントを受け付けていません

AB-UPT: Scaling Neural CFD Surrogates for High-Fidelity Automotive Aerodynamics Simulations via Anchored-Branched Universal Physics Transformers

要約

神経代理モデリングの最近の進歩は、自動車空力などのアプリケーションの変革的革新の可能性を提供します。
しかし、産業規模の問題には、多くの場合、細胞数が1億人に達する体積メッシュが含まれ、主要なスケーラビリティの課題を提示します。
複雑なジオメトリは、複雑な表面体積相互作用を介してモデリングをさらに複雑にしますが、渦度などの量は非常に非線形であり、厳格な発散のない制約を満たす必要があります。
これらの要件に対処するために、CFDシミュレーションのために神経サロゲートを構築するための新しいモデリングスキームとしてab-upを紹介します。
ab-upは次のように設計されています。(i)マルチブランチオペレーターを介したジオメトリエンコードと予測タスクを分離する。
(ii)低次元の潜在空間でのニューラルシミュレーションを介した高解像度の出力のスケーラビリティを有効にし、固定されたニューラルフィールドデコーダと相まって、高忠実度出力を予測します。
(iii)新しい発散のない製剤による物理学の一貫性を強制します。
Ab-Uptは、33,000人から1億5,000万メッシュのメッシュセルの範囲の自動車CFDシミュレーションで、表面および体積フィールドの最先端の予測精度を生成することを示しています。
さらに、私たちの固定されたニューラルフィールドアーキテクチャにより、発散のない渦度フィールドをモデル化することで例示されるパフォーマンスの分解なしに、物理学の予測に対する硬い物理的制約の実施が可能になります。
特に、提案されているモデルは、1日以内に単一のGPUでトレーニングし、数秒以内に業界標準の表面と体積フィールドを予測できます。
さらに、この方法の柔軟な設計により、CADジオメトリのみからのニューラルシミュレーションが可能になり、費用のかかるCFDメッシュ手順が必要であることが示されています。

要約(オリジナル)

Recent advances in neural surrogate modeling offer the potential for transformative innovations in applications such as automotive aerodynamics. Yet, industrial-scale problems often involve volumetric meshes with cell counts reaching the 100 millions, presenting major scalability challenges. Complex geometries further complicate modeling through intricate surface-volume interactions, while quantities such as vorticity are highly nonlinear and must satisfy strict divergence-free constraints. To address these requirements, we introduce AB-UPT as a novel modeling scheme for building neural surrogates for CFD simulations. AB-UPT is designed to: (i) decouple geometry encoding and prediction tasks via multi-branch operators; (ii) enable scalability to high-resolution outputs via neural simulation in a low-dimensional latent space, coupled with anchored neural field decoders to predict high-fidelity outputs; (iii) enforce physics consistency by a novel divergence-free formulation. We show that AB-UPT yields state-of-the-art predictive accuracy of surface and volume fields on automotive CFD simulations ranging from 33 thousand up to 150 million mesh cells. Furthermore, our anchored neural field architecture enables the enforcement of hard physical constraints on the physics predictions without degradation in performance, exemplified by modeling divergence-free vorticity fields. Notably, the proposed models can be trained on a single GPU in less than a day and predict industry-standard surface and volume fields within seconds. Additionally, we show that the flexible design of our method enables neural simulation from a CAD geometry alone, omitting the need for costly CFD meshing procedures.

arxiv情報

著者 Benedikt Alkin,Maurits Bleeker,Richard Kurle,Tobias Kronlachner,Reinhard Sonnleitner,Matthias Dorfer,Johannes Brandstetter
発行日 2025-06-13 15:49:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | AB-UPT: Scaling Neural CFD Surrogates for High-Fidelity Automotive Aerodynamics Simulations via Anchored-Branched Universal Physics Transformers はコメントを受け付けていません

A Neural Rejection System Against Universal Adversarial Perturbations in Radio Signal Classification

要約

近年の無線信号分類について、従来の方法よりも深い学習の利点が実証されています。
しかし、さまざまな研究者は、敵の例として知られる小規模だが意図的な特徴でさえ、深い学習ベースの無線信号分類のパフォーマンスを大幅に悪化させる可能性があることを発見しました。
さまざまな種類の敵対的な例の中で、普遍的な敵対的な摂動は、データが独立しているという特徴のためにかなりの注目を集めており、したがって、高い成功率で無線信号分類を欺くための実用的な戦略として。
したがって、このホワイトペーパーでは、普遍的な敵対的摂動に対して提案するために神経拒絶システムと呼ばれる防御システムを調査し、ホワイトボックスの普遍的な敵対的摂動を生成することによりそのパフォーマンスを評価します。
提案された神経拒絶システムは、無防備な深い神経ネットワークよりも大幅に高い精度で普遍的な敵対的摂動を擁護できることを示しています。

要約(オリジナル)

Advantages of deep learning over traditional methods have been demonstrated for radio signal classification in the recent years. However, various researchers have discovered that even a small but intentional feature perturbation known as adversarial examples can significantly deteriorate the performance of the deep learning based radio signal classification. Among various kinds of adversarial examples, universal adversarial perturbation has gained considerable attention due to its feature of being data independent, hence as a practical strategy to fool the radio signal classification with a high success rate. Therefore, in this paper, we investigate a defense system called neural rejection system to propose against universal adversarial perturbations, and evaluate its performance by generating white-box universal adversarial perturbations. We show that the proposed neural rejection system is able to defend universal adversarial perturbations with significantly higher accuracy than the undefended deep neural network.

arxiv情報

著者 Lu Zhang,Sangarapillai Lambotharan,Gan Zheng,Fabio Roli
発行日 2025-06-13 15:52:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Neural Rejection System Against Universal Adversarial Perturbations in Radio Signal Classification はコメントを受け付けていません

Spectra-to-Structure and Structure-to-Spectra Inference Across the Periodic Table

要約

X線吸収分光法(XAS)は、局所原子環境を調査するための強力な手法ですが、その解釈は、専門家主導の分析、計算高価なシミュレーション、および要素固有のヒューリスティックの必要性によって制限されたままです。
機械学習における最近の進歩は、XAS解釈を加速するための有望であることが示されていますが、多くの既存のモデルは、特定の要素、エッジタイプ、またはスペクトルレジームに狭く焦点を当てています。
この作業では、Xastructを提示します。これは、結晶構造からXASスペクトルを予測し、XAS入力から局所構造記述子を推測できる学習フレームワークです。
Xastructは、周期表の70を超える要素にまたがる大規模なデータセットでトレーニングされており、さまざまな化学および結合環境への一般化を可能にします。
このモデルには、XASスペクトルから隣接原子タイプを直接予測するための最初の機械学習アプローチと、要素固有のチューニングを必要としない平均最寄りのniighbor距離の統一回帰モデルが含まれます。
2つのパイプラインを単一のエンドツーエンドモデルに統合することを調査しましたが、経験的な結果はパフォーマンスの劣化を示しました。
その結果、最適な精度とタスク固有のパフォーマンスを確保するために、2つのタスクが独立して訓練されました。
Xastructは、複雑な構造プロパティマッピングとよりシンプルなタスク用の効率的なベースラインモデルと深いニューラルネットワークを組み合わせることにより、データ駆動型のXAS分析と局所構造推論のためのスケーラブルで拡張可能なソリューションを提供します。
ソースコードは、紙の受け入れ時にリリースされます。

要約(オリジナル)

X-ray Absorption Spectroscopy (XAS) is a powerful technique for probing local atomic environments, yet its interpretation remains limited by the need for expert-driven analysis, computationally expensive simulations, and element-specific heuristics. Recent advances in machine learning have shown promise for accelerating XAS interpretation, but many existing models are narrowly focused on specific elements, edge types, or spectral regimes. In this work, we present XAStruct, a learning framework capable of both predicting XAS spectra from crystal structures and inferring local structural descriptors from XAS input. XAStruct is trained on a large-scale dataset spanning over 70 elements across the periodic table, enabling generalization to a wide variety of chemistries and bonding environments. The model includes the first machine learning approach for predicting neighbor atom types directly from XAS spectra, as well as a unified regression model for mean nearest-neighbor distance that requires no element-specific tuning. While we explored integrating the two pipelines into a single end-to-end model, empirical results showed performance degradation. As a result, the two tasks were trained independently to ensure optimal accuracy and task-specific performance. By combining deep neural networks for complex structure-property mappings with efficient baseline models for simpler tasks, XAStruct offers a scalable and extensible solution for data-driven XAS analysis and local structure inference. The source code will be released upon paper acceptance.

arxiv情報

著者 Yufeng Wang,Peiyao Wang,Lu Ma,Yuewei Lin,Qun Liu,Haibin Ling
発行日 2025-06-13 15:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Spectra-to-Structure and Structure-to-Spectra Inference Across the Periodic Table はコメントを受け付けていません

Breaking Habits: On the Role of the Advantage Function in Learning Causal State Representations

要約

最近の研究では、補強学習エージェントが報酬と観察の間の偽の相関を活用するポリシーを開発できることが示されています。
ポリシー交絡として知られるこの現象は、エージェントのポリシーが過去と将来の観察変数の両方に影響を与え、通常の軌跡を超えてエージェントの一般化能力を妨げるフィードバックループを作成するために発生します。
このホワイトペーパーでは、ポリシー勾配手法で一般的に使用される利点関数は、勾配推定値の分散を減らすだけでなく、ポリシー交絡の効果を軽減することを示しています。
状態表現に関連するアクション値を調整することにより、アドバンテージは、現在のポリシーの下でより可能性が高い状態のアクションペアをダウンウェアする機能、偽の相関を破り、エージェントが因果要因に焦点を合わせるよう奨励します。
アドバンテージ関数を使用したトレーニングにより、軌道外のパフォーマンスが向上することを示す分析的および経験的証拠の両方を提供します。

要約(オリジナル)

Recent work has shown that reinforcement learning agents can develop policies that exploit spurious correlations between rewards and observations. This phenomenon, known as policy confounding, arises because the agent’s policy influences both past and future observation variables, creating a feedback loop that can hinder the agent’s ability to generalize beyond its usual trajectories. In this paper, we show that the advantage function, commonly used in policy gradient methods, not only reduces the variance of gradient estimates but also mitigates the effects of policy confounding. By adjusting action values relative to the state representation, the advantage function downweights state-action pairs that are more likely under the current policy, breaking spurious correlations and encouraging the agent to focus on causal factors. We provide both analytical and empirical evidence demonstrating that training with the advantage function leads to improved out-of-trajectory performance.

arxiv情報

著者 Miguel Suau
発行日 2025-06-13 16:06:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Breaking Habits: On the Role of the Advantage Function in Learning Causal State Representations はコメントを受け付けていません

LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?

要約

最近の報告によると、大規模な言語モデル(LLM)は、競争力のあるプログラミングでエリート人を上回ると主張しています。
国際的なアルゴリズムコンテストのメダリストのグループからの知識を活用して、LLMが人間の専門家とどのように異なるか、そしてまだ限界が残っている場所を調べることを再検討します。
LiveCodeBench Proは、データ汚染の可能性を減らすために継続的に更新されるCodeforces、ICPC、およびIOIの問題で構成されるベンチマークです。
オリンピアードメダリストのチームは、アルゴリズムカテゴリのすべての問題に注釈を付け、モデル生成された提出に失敗したラインごとの分析を実施します。
この新しいデータとベンチマークを使用して、フロンティアモデルには依然として大きな制限があることがわかります。外部ツールがなければ、最高のモデルは、中程度の問題で53%のパス@1と、困難な問題で0%しか達成しません。
また、LLMSは実装が多い問題で成功しますが、微妙なアルゴリズムの推論と複雑な症例分析に苦労し、しばしば自信を持って誤った正当化を生成します。
高性能は、実装の精度とツールの増強によって主に駆動されるように見えますが、優れた推論ではありません。
したがって、LiveCodebench Proは、人間のグランドマスターレベルとの大きなギャップを強調し、コード中心のLLM推論の将来の改善を促進するための微調整された診断を提供します。

要約(オリジナル)

Recent reports claim that large language models (LLMs) now outperform elite humans in competitive programming. Drawing on knowledge from a group of medalists in international algorithmic contests, we revisit this claim, examining how LLMs differ from human experts and where limitations still remain. We introduce LiveCodeBench Pro, a benchmark composed of problems from Codeforces, ICPC, and IOI that are continuously updated to reduce the likelihood of data contamination. A team of Olympiad medalists annotates every problem for algorithmic categories and conducts a line-by-line analysis of failed model-generated submissions. Using this new data and benchmark, we find that frontier models still have significant limitations: without external tools, the best model achieves only 53% pass@1 on medium-difficulty problems and 0% on hard problems, domains where expert humans still excel. We also find that LLMs succeed at implementation-heavy problems but struggle with nuanced algorithmic reasoning and complex case analysis, often generating confidently incorrect justifications. High performance appears largely driven by implementation precision and tool augmentation, not superior reasoning. LiveCodeBench Pro thus highlights the significant gap to human grandmaster levels, while offering fine-grained diagnostics to steer future improvements in code-centric LLM reasoning.

arxiv情報

著者 Zihan Zheng,Zerui Cheng,Zeyu Shen,Shang Zhou,Kaiyuan Liu,Hansen He,Dongruixuan Li,Stanley Wei,Hangyi Hao,Jianzhu Yao,Peiyao Sheng,Zixuan Wang,Wenhao Chai,Aleksandra Korolova,Peter Henderson,Sanjeev Arora,Pramod Viswanath,Jingbo Shang,Saining Xie
発行日 2025-06-13 16:29:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? はコメントを受け付けていません

Improving Large Language Model Safety with Contrastive Representation Learning

要約

大規模な言語モデル(LLM)は、社会的影響を深める強力なツールですが、多様で制御されていない入力に対する応答を生成する能力により、敵対的な攻撃に対して脆弱になります。
既存の防御はしばしばさまざまな攻撃タイプ全体で一般化するのに苦労していますが、最近の代表工学の進歩は有望な代替案を提供します。
この作業では、モデル防御を対照的な表現学習(CRL)問題として定式化する防御フレームワークを提案します。
私たちのメソッドは、良性表現と有害な表現の分離を促進するために、トリプレットベースの損失と敵対的なハードネガティブマイニングを組み合わせたモデルをFinetunesにします。
複数のモデルにわたる実験結果は、私たちのアプローチが事前の表現エンジニアリングベースの防御を上回り、標準パフォーマンスを損なうことなく入力レベルと埋め込みスペース攻撃の両方に対する堅牢性を改善することを示しています。
私たちのコードは、https://github.com/samuelsimko/crl-llm-defenseで入手できます

要約(オリジナル)

Large Language Models (LLMs) are powerful tools with profound societal impacts, yet their ability to generate responses to diverse and uncontrolled inputs leaves them vulnerable to adversarial attacks. While existing defenses often struggle to generalize across varying attack types, recent advancements in representation engineering offer promising alternatives. In this work, we propose a defense framework that formulates model defense as a contrastive representation learning (CRL) problem. Our method finetunes a model using a triplet-based loss combined with adversarial hard negative mining to encourage separation between benign and harmful representations. Our experimental results across multiple models demonstrate that our approach outperforms prior representation engineering-based defenses, improving robustness against both input-level and embedding-space attacks without compromising standard performance. Our code is available at https://github.com/samuelsimko/crl-llm-defense

arxiv情報

著者 Samuel Simko,Mrinmaya Sachan,Bernhard Schölkopf,Zhijing Jin
発行日 2025-06-13 16:42:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Improving Large Language Model Safety with Contrastive Representation Learning はコメントを受け付けていません

Today’s Cat Is Tomorrow’s Dog: Accounting for Time-Based Changes in the Labels of ML Vulnerability Detection Approaches

要約

MLテストに使用される脆弱性データセットには、遡及的情報が暗黙的に含まれています。
フィールドでテストされた場合、トレーニングとテスト時に利用可能なラベルを使用することができます(たとえば、見られたり、想定されているネガティブ)。
カレンダー時間全体で脆弱性が発見されるため、ラベルの変化と過去のパフォーマンスは、必ずしも将来のパフォーマンスと一致するわけではありません。
過去の作品は、全歴史のスライス(例:多様性)または放出間の個人差のみを考慮した(例:Jimenez etal。ESEC/FSE 2019)。
このようなアプローチは、トレーニング(歴史全体など)が楽観的すぎるか、保守的すぎる(例:連続リリース)のいずれかです。
データセットを再構築する方法を提案し、トレーニングラベルとテストラベルの両方が変更されて、当時利用可能な知識を説明するために変更します。
モデルが実際に学習している場合、より多くのデータが利用可能になり、データがより安定になるにつれて、時間の経過とともにパフォーマンスを改善する必要があります。これは、Mann-Kendallテストでチェックできる効果です。
4つの時間ベースのデータセット(BigVul Dataset + VuldeePeckerのNVDからの3つのプロジェクト)および5 MLモデル(Code2Vec、Codebert、Linevul、Regvd、およびVuldeepecker)を使用して、脆弱性検出の方法論を検証します。
直感的な期待(より遡及的な情報、より良いパフォーマンス)とは対照的に、トレンドの結果は、パフォーマンスが長年にわたって矛盾して変化することを示しており、ほとんどのモデルが学習していないことを示しています。

要約(オリジナル)

Vulnerability datasets used for ML testing implicitly contain retrospective information. When tested on the field, one can only use the labels available at the time of training and testing (e.g. seen and assumed negatives). As vulnerabilities are discovered across calendar time, labels change and past performance is not necessarily aligned with future performance. Past works only considered the slices of the whole history (e.g. DiverseVUl) or individual differences between releases (e.g. Jimenez et al. ESEC/FSE 2019). Such approaches are either too optimistic in training (e.g. the whole history) or too conservative (e.g. consecutive releases). We propose a method to restructure a dataset into a series of datasets in which both training and testing labels change to account for the knowledge available at the time. If the model is actually learning, it should improve its performance over time as more data becomes available and data becomes more stable, an effect that can be checked with the Mann-Kendall test. We validate our methodology for vulnerability detection with 4 time-based datasets (3 projects from BigVul dataset + Vuldeepecker’s NVD) and 5 ML models (Code2Vec, CodeBERT, LineVul, ReGVD, and Vuldeepecker). In contrast to the intuitive expectation (more retrospective information, better performance), the trend results show that performance changes inconsistently across the years, showing that most models are not learning.

arxiv情報

著者 Ranindya Paramitha,Yuan Feng,Fabio Massacci
発行日 2025-06-13 16:42:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, I.2 | Today’s Cat Is Tomorrow’s Dog: Accounting for Time-Based Changes in the Labels of ML Vulnerability Detection Approaches はコメントを受け付けていません

Explainability of Large Language Models using SMILE: Statistical Model-agnostic Interpretability with Local Explanations

要約

GPT、Llama、Claudeなどの大規模な言語モデルは、テキストを生成することで非常に強力になっていますが、それでもブラックボックスであるため、何を言うかをどのように決定するかを理解するのは困難です。
特に信頼と説明責任が重要な分野では、透明性の欠如が問題になる可能性があります。
これを支援するために、これらのモデルがプロンプトのさまざまな部分にどのように反応するかを説明する新しい方法であるSmileを紹介します。
Smileはモデルに依存しており、入力をわずかに変更し、出力がどのように変化するかを測定し、どの単語が最も影響を与えたかを強調することで機能します。
プロンプトのどの部分が最も重要であるかを示すシンプルな視覚ヒートマップを作成します。
いくつかの主要なLLMでSmileをテストし、精度、一貫性、安定性、忠実度などのメトリックを使用して、明確で信頼できる説明を提供することを示しました。
これらのモデルを理解しやすくすることで、SmileはAIをより透明で信頼できるものにすることに一歩近づきます。

要約(オリジナル)

Large language models like GPT, LLAMA, and Claude have become incredibly powerful at generating text, but they are still black boxes, so it is hard to understand how they decide what to say. That lack of transparency can be problematic, especially in fields where trust and accountability matter. To help with this, we introduce SMILE, a new method that explains how these models respond to different parts of a prompt. SMILE is model-agnostic and works by slightly changing the input, measuring how the output changes, and then highlighting which words had the most impact. Create simple visual heat maps showing which parts of a prompt matter the most. We tested SMILE on several leading LLMs and used metrics such as accuracy, consistency, stability, and fidelity to show that it gives clear and reliable explanations. By making these models easier to understand, SMILE brings us one step closer to making AI more transparent and trustworthy.

arxiv情報

著者 Zeinab Dehghani,Mohammed Naveed Akram,Koorosh Aslansefat,Adil Khan
発行日 2025-06-13 16:43:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Explainability of Large Language Models using SMILE: Statistical Model-agnostic Interpretability with Local Explanations はコメントを受け付けていません