DMM: Distributed Matrix Mechanism for Differentially-Private Federated Learning using Packed Secret Sharing

要約

Federated Learning (FL) は、最近、産業界と学術界の両方で大きな注目を集めています。
フロリダ州では、複数のラウンドにわたる委員会に編成されたさまざまなエンドユーザーからのデータを使用して機械学習モデルがトレーニングされます。
このようなデータは機密性が高いことが多いため、フロリダ州の主な課題は、モデルの有用性を維持しながらプライバシーを提供することです。
差分プライバシー (DP) は、FL 設定におけるプライバシーの主な尺度になっています。
DP には、中央とローカルの 2 つの種類があります。
前者では、集中サーバーがトレーニング ステップからユーザーの生の勾配を受信し、モデルの次のバージョンをリリースする前にノイズでその集計を混乱させると信頼されています。
後者の (よりプライベートな) 設定では、ノイズがユーザーのローカル デバイスに適用され、ユーザーのノイズを含む勾配の集計のみがサーバーにも公開されます。
いわゆるマトリックス メカニズムを利用することにより、中央の DP 設定におけるプライバシーとユーティリティのトレードオフを高める点で大きな進歩が見られました。
ただし、ローカル DP 設定では進捗がほとんど停滞しています。
この研究では、両方の長所を達成するために分散マトリックス メカニズムを導入します。
ローカル DP だけでなく、マトリックス メカニズムによるプライバシーとユーティリティのトレードオフも向上します。
私たちは、パックされた秘密の共有を利用してラウンド間で機密の値を安全に転送する暗号プロトコルを提案することでこれを実現します。
このプロトコルは、計算からドロップアウトする可能性のあるユーザーを含め、FL によって要求されるトレーニング ラウンドごとのユーザーの動的な参加に対応します。
私たちは、オーバーヘッドをほとんど追加することなく、以前のローカル DP メカニズムと比較して、私たちのメカニズムが FL モデルのプライバシーとユーティリティのトレードオフを実際に大幅に改善することを示す実験を提供します。

要約(オリジナル)

Federated Learning (FL) has gained lots of traction recently, both in industry and academia. In FL, a machine learning model is trained using data from various end-users arranged in committees across several rounds. Since such data can often be sensitive, a primary challenge in FL is providing privacy while still retaining utility of the model. Differential Privacy (DP) has become the main measure of privacy in the FL setting. DP comes in two flavors: central and local. In the former, a centralized server is trusted to receive the users’ raw gradients from a training step, and then perturb their aggregation with some noise before releasing the next version of the model. In the latter (more private) setting, noise is applied on users’ local devices, and only the aggregation of users’ noisy gradients is revealed even to the server. Great strides have been made in increasing the privacy-utility trade-off in the central DP setting, by utilizing the so-called matrix mechanism. However, progress has been mostly stalled in the local DP setting. In this work, we introduce the distributed matrix mechanism to achieve the best-of-both-worlds; local DP and also better privacy-utility trade-off from the matrix mechanism. We accomplish this by proposing a cryptographic protocol that securely transfers sensitive values across rounds, which makes use of packed secret sharing. This protocol accommodates the dynamic participation of users per training round required by FL, including those that may drop out from the computation. We provide experiments which show that our mechanism indeed significantly improves the privacy-utility trade-off of FL models compared to previous local DP mechanisms, with little added overhead.

arxiv情報

著者 Alexander Bienstock,Ujjwal Kumar,Antigoni Polychroniadou
発行日 2024-10-21 16:25:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | DMM: Distributed Matrix Mechanism for Differentially-Private Federated Learning using Packed Secret Sharing はコメントを受け付けていません

Adversarial Inception for Bounded Backdoor Poisoning in Deep Reinforcement Learning

要約

最近の研究では、トレーニング時のバックドア ポイズニング攻撃に対する深層強化学習 (DRL) アルゴリズムの脆弱性が実証されています。
これらの攻撃は、エージェントがトレーニング中に意図したタスクを解決できるようにしながら、展開中に固定トリガーを観察すると、エージェントに事前に決定された敵対的な動作を誘発します。
以前の攻撃は、これらの目的の両方を達成するために、エージェントの報酬に対する任意の大きな摂動に依存しており、検出される可能性が残されていました。
したがって、この研究では、エージェントの報酬の変更を最小限に抑えながら最先端のパフォーマンスを達成する、DRL に対する新しいクラスのバックドア攻撃を提案します。
これらの「インセプション」攻撃は、エージェントが選択したアクションとトレーニング中に環境で実行される実際のアクションとの間の分離を誘導することにより、ターゲットとなった敵対的な行動を高い利益に結びつけるようにエージェントをトレーニングします。
私たちはこれらの攻撃を正式に定義し、両方の敵対的な目的を達成できることを証明しています。
次に、限られた報酬制約の下で以前の攻撃を大幅に上回るオンライン開始攻撃を考案します。

要約(オリジナル)

Recent works have demonstrated the vulnerability of Deep Reinforcement Learning (DRL) algorithms against training-time, backdoor poisoning attacks. These attacks induce pre-determined, adversarial behavior in the agent upon observing a fixed trigger during deployment while allowing the agent to solve its intended task during training. Prior attacks rely on arbitrarily large perturbations to the agent’s rewards to achieve both of these objectives – leaving them open to detection. Thus, in this work, we propose a new class of backdoor attacks against DRL which achieve state of the art performance while minimally altering the agent’s rewards. These ‘inception’ attacks train the agent to associate the targeted adversarial behavior with high returns by inducing a disjunction between the agent’s chosen action and the true action executed in the environment during training. We formally define these attacks and prove they can achieve both adversarial objectives. We then devise an online inception attack which significantly out-performs prior attacks under bounded reward constraints.

arxiv情報

著者 Ethan Rathbun,Christopher Amato,Alina Oprea
発行日 2024-10-21 16:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Adversarial Inception for Bounded Backdoor Poisoning in Deep Reinforcement Learning はコメントを受け付けていません

Differentiable Optimization of Similarity Scores Between Models and Brains

要約

2 つのシステム (生物学的システムか人工システム) が同様の方法で情報を処理しているかどうかをどのようにして知ることができるのでしょうか?
この類似性を定量化するために、線形回帰、中心カーネル アライメント (CKA)、正規化ビュレス類似度 (NBS)、角度プロクラステス距離などの類似性尺度がよく使用されます。
ただし、現時点では、何が高い類似性スコアをもたらすのか、また何が「良い」スコアを構成するのかさえ不明です。
ここでは、類似性尺度を通じて区別することでこれらの質問を調査し、スコアを直接最大化する新しいツールを紹介します。
驚くべきことに、高い類似性スコアは、ニューラル データと一致する方法でタスク関連情報をエンコードすることを保証しないことがわかりました。
これは、CKA だけでなく、交差検証および正規化された線形回帰の一部のバリエーションでも特に深刻です。
良好な類似性スコアに対する一貫したしきい値は見つかりません。それは測定値とデータセットの両方に依存します。
さらに、類似性スコアを最大化するように最適化された合成データセットは、最初にターゲット データセットの最も高い分散主成分を学習しますが、angular Procrustes などの一部の手法は、CKA などの手法よりもはるかに早い段階でより低い分散次元を取得します。
これを明らかにするために、主成分の次元の分散に対する CKA、角度プロクラステス、および NBS の感度を数学的に導出し、CKA が高分散成分に重点を置くことを説明します。
最後に、複数の類似性尺度を共同最適化することで、それらの許容範囲を特徴付け、一部の類似性尺度が他の類似性尺度よりも制約的であることを明らかにします。
現在の尺度は、神経システム間の類似性を定量化する一見簡単な方法を提供していますが、私たちの研究は慎重な解釈の必要性を強調しています。
私たちが開発したツールが、現在および将来の類似性尺度をより深く理解するために実務家によって使用されることを願っています。

要約(オリジナル)

How do we know if two systems – biological or artificial – process information in a similar way? Similarity measures such as linear regression, Centered Kernel Alignment (CKA), Normalized Bures Similarity (NBS), and angular Procrustes distance, are often used to quantify this similarity. However, it is currently unclear what drives high similarity scores and even what constitutes a ‘good’ score. Here, we introduce a novel tool to investigate these questions by differentiating through similarity measures to directly maximize the score. Surprisingly, we find that high similarity scores do not guarantee encoding task-relevant information in a manner consistent with neural data; and this is particularly acute for CKA and even some variations of cross-validated and regularized linear regression. We find no consistent threshold for a good similarity score – it depends on both the measure and the dataset. In addition, synthetic datasets optimized to maximize similarity scores initially learn the highest variance principal component of the target dataset, but some methods like angular Procrustes capture lower variance dimensions much earlier than methods like CKA. To shed light on this, we mathematically derive the sensitivity of CKA, angular Procrustes, and NBS to the variance of principal component dimensions, and explain the emphasis CKA places on high variance components. Finally, by jointly optimizing multiple similarity measures, we characterize their allowable ranges and reveal that some similarity measures are more constraining than others. While current measures offer a seemingly straightforward way to quantify the similarity between neural systems, our work underscores the need for careful interpretation. We hope the tools we developed will be used by practitioners to better understand current and future similarity measures.

arxiv情報

著者 Nathan Cloos,Moufan Li,Markus Siegel,Scott L. Brincat,Earl K. Miller,Guangyu Robert Yang,Christopher J. Cueva
発行日 2024-10-21 16:34:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC | Differentiable Optimization of Similarity Scores Between Models and Brains はコメントを受け付けていません

This Too Shall Pass: Removing Stale Observations in Dynamic Bayesian Optimization

要約

ベイジアン最適化 (BO) は、静的でノイズが多く、評価コストがかかるブラックボックス関数 $f : \mathcal{S} \to \mathbb{R}$ の最適化に非常に成功していることが証明されています。
ただし、時間の関数でもあるブラックボックス (つまり、動的関数) $f : \mathcal{S} \times \mathcal{T} \to \mathbb{R}$ を最適化することは依然として課題です。
動的ベイジアン最適化 (DBO) アルゴリズムは、時間の経過とともに最適値を追跡し続ける必要があります。
これにより、少なくとも 3 つの側面で最適化問題の性質が変わります。(i) $\mathcal{S} \times \mathcal{T}$ 内の任意の点をクエリすることは不可能です。(ii) 過去の観察は、最適化問題との関連性がますます低くなります。
(iii) DBO アルゴリズムは、時間の経過とともに最適値を追跡するために十分な関連観測を収集できるように、高いサンプリング周波数を持つ必要があります。
この論文では、将来の予測に対する観測値の関連性を定量化できる、Wasserstein 距離ベースの基準を設計します。
次に、この基準を利用して W-DBO を構築します。W-DBO は、その場でデータセットから無関係な観測値を削除できる DBO アルゴリズムです。これにより、未知の期間を伴う連続時間の最適化タスクであっても、優れた予測パフォーマンスと高いサンプリング周波数を同時に維持できます。

数値実験により、W-DBO の優位性が確立され、最先端の手法を余裕のマージンで上回ります。

要約(オリジナル)

Bayesian Optimization (BO) has proven to be very successful at optimizing a static, noisy, costly-to-evaluate black-box function $f : \mathcal{S} \to \mathbb{R}$. However, optimizing a black-box which is also a function of time (i.e., a dynamic function) $f : \mathcal{S} \times \mathcal{T} \to \mathbb{R}$ remains a challenge, since a dynamic Bayesian Optimization (DBO) algorithm has to keep track of the optimum over time. This changes the nature of the optimization problem in at least three aspects: (i) querying an arbitrary point in $\mathcal{S} \times \mathcal{T}$ is impossible, (ii) past observations become less and less relevant for keeping track of the optimum as time goes by and (iii) the DBO algorithm must have a high sampling frequency so it can collect enough relevant observations to keep track of the optimum through time. In this paper, we design a Wasserstein distance-based criterion able to quantify the relevancy of an observation with respect to future predictions. Then, we leverage this criterion to build W-DBO, a DBO algorithm able to remove irrelevant observations from its dataset on the fly, thus maintaining simultaneously a good predictive performance and a high sampling frequency, even in continuous-time optimization tasks with unknown horizon. Numerical experiments establish the superiority of W-DBO, which outperforms state-of-the-art methods by a comfortable margin.

arxiv情報

著者 Anthony Bardou,Patrick Thiran,Giovanni Ranieri
発行日 2024-10-21 16:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | This Too Shall Pass: Removing Stale Observations in Dynamic Bayesian Optimization はコメントを受け付けていません

SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents

要約

強化学習 (RL) は活発に成長している分野であり、現実世界の安全性が重要なアプリケーションでの使用が増加しており、敵対的な攻撃に対する RL アルゴリズムの堅牢性を確保することが最も重要です。
この研究では、RL に対するトレーニング時の特にステルスな形式の攻撃、つまりバックドア ポイズニングを調査します。
ここで、敵対者は、エージェントが推論時に事前に決定されたトリガーを観察したときに特定のアクションを確実に誘発することを目的として、RL エージェントのトレーニングを傍受します。
私たちは、ドメインや MDP 間で一般化できないことを証明することで、以前の研究の理論的限界を明らかにします。
これを動機として、私たちは敵対者の目的と最適なポリシーを見つけるという目的を結び付け、限界内で攻撃の成功を保証する新しいポイズニング攻撃フレームワークを策定します。
理論分析からの洞察を使用して、新しく提案された脅威モデルを悪用し、動的報酬ポイズニング技術を活用する普遍的なバックドア攻撃として「SleeperNets」を開発します。
複数のドメインにまたがる 6 つの環境で攻撃を評価し、無害な一時的なリターンを維持しながら、既存の方法と比べて攻撃の成功率が大幅に向上していることを実証しました。

要約(オリジナル)

Reinforcement learning (RL) is an actively growing field that is seeing increased usage in real-world, safety-critical applications — making it paramount to ensure the robustness of RL algorithms against adversarial attacks. In this work we explore a particularly stealthy form of training-time attacks against RL — backdoor poisoning. Here the adversary intercepts the training of an RL agent with the goal of reliably inducing a particular action when the agent observes a pre-determined trigger at inference time. We uncover theoretical limitations of prior work by proving their inability to generalize across domains and MDPs. Motivated by this, we formulate a novel poisoning attack framework which interlinks the adversary’s objectives with those of finding an optimal policy — guaranteeing attack success in the limit. Using insights from our theoretical analysis we develop “SleeperNets” as a universal backdoor attack which exploits a newly proposed threat model and leverages dynamic reward poisoning techniques. We evaluate our attack in 6 environments spanning multiple domains and demonstrate significant improvements in attack success over existing methods, while preserving benign episodic return.

arxiv情報

著者 Ethan Rathbun,Christopher Amato,Alina Oprea
発行日 2024-10-21 16:44:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents はコメントを受け付けていません

A Trust-Region Method for Graphical Stein Variational Inference

要約

スタイン変分推論 (SVI) は、サンプルベースの近似ベイズ推論手法であり、サンプルの位置を共同最適化することでサンプル セットを生成し、ターゲットの確率分布との不一致の情報理論的尺度を最小限に抑えます。
したがって、SVI は、従来の (ランダム サンプリング ベースの) 代替手段よりも高速かつ大幅にサンプル効率の高いベイズ推論アプローチを提供します。
しかし、既存の SVI 手法で採用されている最適化手法は、ターゲットの分布が高次元、条件が不十分、または非凸である問題に対処するのに苦労しており、実際の適用範囲が大幅に制限されています。
このペーパーでは、これらの課題のそれぞれにうまく対処する、SVI のための新しい信頼領域最適化アプローチを提案します。
私たちの方法は、ターゲット分布の条件付き独立性(高次元のスケーリングを達成するため)と二次情報(不十分なコンディショニングに対処するため)を活用することで、SVI での以前の研究に基づいて構築されています。さらに、効果的な適応ステップ制御手順を提供します。
困難な非凸最適化問題の収束を保証します。
実験結果は、私たちの手法が以前の SVI 手法よりも収束率とサンプル精度の両方で優れた数値性能を達成し、高次元分布でより適切にスケーリングできることを示しています。

要約(オリジナル)

Stein variational inference (SVI) is a sample-based approximate Bayesian inference technique that generates a sample set by jointly optimizing the samples’ locations to minimize an information-theoretic measure of discrepancy with the target probability distribution. SVI thus provides a fast and significantly more sample-efficient approach to Bayesian inference than traditional (random-sampling-based) alternatives. However, the optimization techniques employed in existing SVI methods struggle to address problems in which the target distribution is high-dimensional, poorly-conditioned, or non-convex, which severely limits the range of their practical applicability. In this paper, we propose a novel trust-region optimization approach for SVI that successfully addresses each of these challenges. Our method builds upon prior work in SVI by leveraging conditional independences in the target distribution (to achieve high-dimensional scaling) and second-order information (to address poor conditioning), while additionally providing an effective adaptive step control procedure, which is essential for ensuring convergence on challenging non-convex optimization problems. Experimental results show our method achieves superior numerical performance, both in convergence rate and sample accuracy, and scales better in high-dimensional distributions, than previous SVI techniques.

arxiv情報

著者 Liam Pavlovic,David M. Rosen
発行日 2024-10-21 16:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | A Trust-Region Method for Graphical Stein Variational Inference はコメントを受け付けていません

Theoretical Limitations of Ensembles in the Age of Overparameterization

要約

古典的なツリーベースのアンサンブルは、単一のデシジョン ツリーよりも優れた一般化を実現します。
対照的に、最近の実証研究では、(過剰パラメータ化された)ニューラル ネットワークの最新のアンサンブルは、単一のより大規模なニューラル ネットワークに比べて、固有の汎化利点を提供しない可能性があることが判明しています。
この論文では、ランダム特徴 (RF) リグレッサーのアンサンブルを理論開発の基礎として使用し、現代の過パラメータ化されたアンサンブルが古典的な過小パラメータ化されたアンサンブルとどのように異なるかを明らかにします。
通常、アンサンブルが正則化を誘発し汎化を高める過小パラメータ化領​​域とは対照的に、過パラメータ化された RF リグレッサーの無限アンサンブルが (単一の) 無限幅 RF リグレッサーと点的に等価になることを証明します。
この等価性は、リッジのないモデルでは正確であり、小さなリッジ ペナルティでは近似ですが、過剰パラメータ化されたアンサンブルと単一の大きなモデルがほぼ同一の一般化を示すことを意味します。
その結果、アンサンブル メンバー間の予測のばらつきを特徴づけることができ、それが従来の不確実性の概念を捉えるのではなく、容量の増加によって予想される効果を定量化することを実証できます。
私たちの結果は、パラメータが過剰な設定におけるアンサンブルの利点に関する一般的な仮定に疑問を投げかけ、パラメータが不足しているアンサンブルからの直感が深いアンサンブルとパラメータが過剰な領域にどの程度うまく伝達されるかについての再考を促します。

要約(オリジナル)

Classic tree-based ensembles generalize better than any single decision tree. In contrast, recent empirical studies find that modern ensembles of (overparameterized) neural networks may not provide any inherent generalization advantage over single but larger neural networks. This paper clarifies how modern overparameterized ensembles differ from their classic underparameterized counterparts, using ensembles of random feature (RF) regressors as a basis for developing theory. In contrast to the underparameterized regime, where ensembling typically induces regularization and increases generalization, we prove that infinite ensembles of overparameterized RF regressors become pointwise equivalent to (single) infinite-width RF regressors. This equivalence, which is exact for ridgeless models and approximate for small ridge penalties, implies that overparameterized ensembles and single large models exhibit nearly identical generalization. As a consequence, we can characterize the predictive variance amongst ensemble members, and demonstrate that it quantifies the expected effects of increasing capacity rather than capturing any conventional notion of uncertainty. Our results challenge common assumptions about the advantages of ensembles in overparameterized settings, prompting a reconsideration of how well intuitions from underparameterized ensembles transfer to deep ensembles and the overparameterized regime.

arxiv情報

著者 Niclas Dern,John P. Cunningham,Geoff Pleiss
発行日 2024-10-21 17:03:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Theoretical Limitations of Ensembles in the Age of Overparameterization はコメントを受け付けていません

Generation through the lens of learning theory

要約

私たちは統計学習理論のレンズを通して生成を研究します。
まず、抽象インスタンス空間上で定義された二項仮説クラスの観点から、極限における言語識別/生成に関する Gold [1967]、Angluin [1979、1980]、および Kleinberg と Mullainathan [2024] の結果を抽象化し、形式化します。
次に、Kleinberg と Mullainathan [2024] によって研究された、「均一生成」と呼ばれる生成の異なるパラダイムを形式化し、どの仮説クラスが均一に生成可能であるかの特徴付けを提供します。
統計的学習理論の標準であるように、私たちの特徴付けは、クロージャ次元と呼ばれる新しい組み合わせ次元の有限性の観点から行われます。
そうすることで、生成可能性と予測可能性 (PAC およびオンライン学習可能性を介して取得) を比較し、仮説クラスのこれら 2 つの特性が \emph{互換性がない} – 生成可能だが予測不可能なクラスもあり、その逆も存在することを示すことができます。

要約(オリジナル)

We study generation through the lens of statistical learning theory. First, we abstract and formalize the results of Gold [1967], Angluin [1979, 1980], and Kleinberg and Mullainathan [2024] for language identification/generation in the limit in terms of a binary hypothesis class defined over an abstract instance space. Then, we formalize a different paradigm of generation studied by Kleinberg and Mullainathan [2024], which we call “uniform generation,’ and provide a characterization of which hypothesis classes are uniformly generatable. As is standard in statistical learning theory, our characterization is in terms of the finiteness of a new combinatorial dimension we call the Closure dimension. By doing so, we are able to compare generatability with predictability (captured via PAC and online learnability) and show that these two properties of hypothesis classes are \emph{incompatible} – there are classes that are generatable but not predictable and vice versa.

arxiv情報

著者 Vinod Raman,Ambuj Tewari
発行日 2024-10-21 17:21:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Generation through the lens of learning theory はコメントを受け付けていません

A Realistic Threat Model for Large Language Model Jailbreaks

要約

安全に調整された LLM から有害な応答を取得するために、多数の脱獄攻撃が提案されています。
元の設定では、これらのメソッドはすべて、ターゲットの出力を強制することにほぼ成功していますが、攻撃の流暢さと計算量は大幅に異なります。
この研究では、これらの手法を原理的に比較するための統一脅威モデルを提案します。
私たちの脅威モデルは、複雑さの制約を組み合わせ、ジェイルブレイクが自然テキストからどれだけ逸脱するか、および計算量を総 FLOP で測定します。
前者の場合、1T トークンに N グラム モデルを構築します。これにより、モデルベースの複雑性とは対照的に、LLM に依存せず、本質的に解釈可能な評価が可能になります。
私たちは一般的な攻撃をこの新しい現実的な脅威モデルに適応させ、初めてこれらの攻撃を同等の立場でベンチマークします。
厳密な比較の結果、安全性が調整された最新のモデルに対する攻撃の成功率が以前に提示されたものよりも低いことが判明しただけでなく、個別の最適化に基づいた攻撃が最近の LLM ベースの攻撃よりも大幅に優れていることがわかりました。
当社の脅威モデルは本質的に解釈可能であるため、ジェイルブレイク攻撃の包括的な分析と比較が可能です。
私たちは、効果的な攻撃が頻度の低い N グラムを悪用し悪用し、現実世界のテキストに存在しない N グラムまたはまれな N グラムを選択することを発見しました。
コード データセットに固有です。

要約(オリジナル)

A plethora of jailbreaking attacks have been proposed to obtain harmful responses from safety-tuned LLMs. In their original settings, these methods all largely succeed in coercing the target output, but their attacks vary substantially in fluency and computational effort. In this work, we propose a unified threat model for the principled comparison of these methods. Our threat model combines constraints in perplexity, measuring how far a jailbreak deviates from natural text, and computational budget, in total FLOPs. For the former, we build an N-gram model on 1T tokens, which, in contrast to model-based perplexity, allows for an LLM-agnostic and inherently interpretable evaluation. We adapt popular attacks to this new, realistic threat model, with which we, for the first time, benchmark these attacks on equal footing. After a rigorous comparison, we not only find attack success rates against safety-tuned modern models to be lower than previously presented but also find that attacks based on discrete optimization significantly outperform recent LLM-based attacks. Being inherently interpretable, our threat model allows for a comprehensive analysis and comparison of jailbreak attacks. We find that effective attacks exploit and abuse infrequent N-grams, either selecting N-grams absent from real-world text or rare ones, e.g. specific to code datasets.

arxiv情報

著者 Valentyn Boreiko,Alexander Panfilov,Vaclav Voracek,Matthias Hein,Jonas Geiping
発行日 2024-10-21 17:27:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | A Realistic Threat Model for Large Language Model Jailbreaks はコメントを受け付けていません

Hypergraph: A Unified and Uniform Definition with Application to Chemical Hypergraph and More

要約

従来のハイパーグラフの定義には 2 つの大きな問題があります。(1) 有向ハイパーグラフの標準定義がありません。(2) ネストされたハイパーグラフの正式な定義がありません。
これらの問題を解決するために、無向ハイパーグラフ、有向ハイパーグラフ、入れ子ハイパーグラフの概念を統一し、物事の間の高次の相関関係、つまりノードとハイパーエッジを表すための単一の構造としてハイパーエッジを使用する点で統一されたハイパーグラフの新しい定義を提案します。
具体的には、ハイパーエッジを単純なハイパーエッジ、ネストしたハイパーエッジ、または有向ハイパーエッジとして定義します。
この新しい定義では、ハイパーグラフは、ネストされたハイパーエッジがある場合はネストされ、有向ハイパーエッジがある場合は有向になります。
それ以外の場合、ハイパーグラフは単純なハイパーグラフです。
この新しい定義の均一性と強力な視覚化により、一般に (階層的な) 高次相関、特に化学系を表現するためのハイパーグラフの使用が容易になるはずです。
グラフは、分子構造や 3D 分子幾何学に関する機械学習のための数学的構造として広く使用されています。
ただし、グラフには大きな制限があります。グラフはノード間のペアごとの相関しか表現できません。
ハイパーグラフは、ノード間の高次の相関を使用してグラフを拡張します。
この拡張は、化学システムの機械学習にとって重要または不可欠です。
分子にとって、これは多中心結合や分子の下部構造を直接的かつ明示的に表現できるため、重要です。
化学反応の場合、ほとんどの化学反応には複数の参加者が関与するため、これは不可欠です。
我々は、化学システムを表現するための単一の数学的構造として、単純な入れ子ハイパーエッジと有向ハイパーエッジを備えたマルチレベル ハイパーグラフである化学ハイパーグラフの使用を提案します。
ハイパーグラフの新しい定義を化学ハイパーグラフに適用し、簡易バージョンとして分子ハイパーグラフと化学反応ハイパーグラフに適用します。

要約(オリジナル)

The conventional definition of hypergraph has two major issues: (1) there is not a standard definition of directed hypergraph and (2) there is not a formal definition of nested hypergraph. To resolve these issues, we propose a new definition of hypergraph that unifies the concepts of undirected, directed and nested hypergraphs, and that is uniform in using hyperedge as a single construct for representing high-order correlations among things, i.e., nodes and hyperedges. Specifically, we define a hyperedge to be a simple hyperedge, a nesting hyperedge, or a directed hyperedge. With this new definition, a hypergraph is nested if it has nesting hyperedge(s), and is directed if it has directed hyperedge(s). Otherwise, a hypergraph is a simple hypergraph. The uniformity and power of this new definition, with visualization, should facilitate the use of hypergraph for representing (hierarchical) high-order correlations in general and chemical systems in particular. Graph has been widely used as a mathematical structure for machine learning on molecular structures and 3D molecular geometries. However, graph has a major limitation: it can represent only pairwise correlations between nodes. Hypergraph extends graph with high-order correlations among nodes. This extension is significant or essential for machine learning on chemical systems. For molecules, this is significant as it allows the direct, explicit representation of multicenter bonds and molecular substructures. For chemical reactions, this is essential since most chemical reactions involve multiple participants. We propose the use of chemical hypergraph, a multilevel hypergraph with simple, nesting and directed hyperedges, as a single mathematical structure for representing chemical systems. We apply the new definition of hypergraph to chemical hypergraph and, as simplified versions, molecular hypergraph and chemical reaction hypergraph.

arxiv情報

著者 Daniel T. Chang
発行日 2024-10-21 17:34:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM | Hypergraph: A Unified and Uniform Definition with Application to Chemical Hypergraph and More はコメントを受け付けていません