Banded Square Root Matrix Factorization for Differentially Private Model Training

要約

差次的にプライベートモデルトレーニングの最新の方法は、マトリックス因数分解技術に基づいています。
ただし、これらの方法は、実際のモデルトレーニングの前にほぼ最適な因子化を決定するために、厳しい最適化問題を数値的に解く必要があるため、高い計算オーバーヘッドに悩まされています。
この作業では、この計算ボトルネックを克服する新しいマトリックス因子化アプローチBSRを提示します。
標準のマトリックス平方根の特性を活用することにより、BSRは大規模な問題も効率的に処理することができます。
運動量と体重減衰を伴う確率勾配降下の重要なシナリオについては、計算オーバーヘッドを無視できるBSRの分析式を導き出します。
集中化された学習設定と連邦学習設定の両方に保持される近似品質の境界を証明します。
私たちの数値実験は、BSRを使用してトレーニングされたモデルが最良の既存の方法と同等に機能し、計算オーバーヘッドを完全に回避することを示しています。

要約(オリジナル)

Current state-of-the-art methods for differentially private model training are based on matrix factorization techniques. However, these methods suffer from high computational overhead because they require numerically solving a demanding optimization problem to determine an approximately optimal factorization prior to the actual model training. In this work, we present a new matrix factorization approach, BSR, which overcomes this computational bottleneck. By exploiting properties of the standard matrix square root, BSR allows to efficiently handle also large-scale problems. For the key scenario of stochastic gradient descent with momentum and weight decay, we even derive analytical expressions for BSR that render the computational overhead negligible. We prove bounds on the approximation quality that hold both in the centralized and in the federated learning setting. Our numerical experiments demonstrate that models trained using BSR perform on par with the best existing methods, while completely avoiding their computational overhead.

arxiv情報

著者 Nikita P. Kalinin,Christoph Lampert
発行日 2025-06-13 15:00:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Banded Square Root Matrix Factorization for Differentially Private Model Training はコメントを受け付けていません

Expressivity of Quadratic Neural ODEs

要約

この作業は、ダイナミクスにほとんどの二次非線形性を持つ神経の通常の微分方程式の定量的近似誤差境界を導出することに焦点を当てています。
このモデル形式の単純なダイナミクスは、表現力が主に多くの基本的な基本操作を繰り返し構成することからどのように導き出されるかを示しています。
アナログ微分アナライザーやユニバーサル多項式DAEのように、表現力は代わりに主にモデルの「深さ」から導き出されます。
これらの結果は、深い学習アーキテクチャの能力にどのような深さが特に与えるかについての理解に貢献しています。

要約(オリジナル)

This work focuses on deriving quantitative approximation error bounds for neural ordinary differential equations having at most quadratic nonlinearities in the dynamics. The simple dynamics of this model form demonstrates how expressivity can be derived primarily from iteratively composing many basic elementary operations, versus from the complexity of those elementary operations themselves. Like the analog differential analyzer and universal polynomial DAEs, the expressivity is derived instead primarily from the ‘depth’ of the model. These results contribute to our understanding of what depth specifically imparts to the capabilities of deep learning architectures.

arxiv情報

著者 Joshua Hanson,Maxim Raginsky
発行日 2025-06-13 15:13:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC | Expressivity of Quadratic Neural ODEs はコメントを受け付けていません

Decadal sink-source shifts of forest aboveground carbon since 1988

要約

永続的な炭素が沈むにつれて、森林生態系は陸生炭素循環に不可欠であり、地球温暖化を緩和するのに役立ちます。
ただし、森林における地上炭素(AGC)の長期的なダイナミクスとそのシンクソースの移行は、観測、データ処理、および分析方法の妨害体制と矛盾の変化により、非常に不確実なままです。
ここでは、マルチソースの衛星観測と確率的ディープラーニングモデルを統合することにより、1988年から2021年まで、グローバルな森林の信頼性の高い調和のとれたAGCストックとフラックスを高空間分解能で導き出します。
私たちのアプローチは、AGCと関連する不確実性を同時に推定し、空間と時間にわたって高い信頼性を示しています。
世界の森林は30年にわたって6.2 PGCのAGCシンクのままでしたが、2001年から2010年の間に湿った熱帯林が大幅なAGC源に移行し、2011年から2021年にかけて源に移行しました。
ヨーロッパとオーストラリアは2011年以降、ヨーロッパとオーストラリアがソースになりましたが、温帯、乾燥した熱帯および亜熱帯の森林が一般に増加しています。
グローバルな大気中のCO2成長率と熱帯AGCフラックスの変動との間の年々の関係はますます負になり、最近の10年間でピアソンのr = -0.63(p <0.05)に達しました。 ブラジルのアマゾンでは、AGC損失に対する森林破壊された地域の貢献は、1989年から2000年の60%から2011年から2021年の13%に減少しましたが、手つかずの地域からの株式は33%から76%に増加しました。 私たちの調査結果は、地上炭素循環の変動性を調節する上で熱帯森林AGCの役割の高まりを示唆しており、人為的な気候変動は、特に以前に手付かずの地域でAGCの変化にますます寄与する可能性があります。

要約(オリジナル)

As enduring carbon sinks, forest ecosystems are vital to the terrestrial carbon cycle and help moderate global warming. However, the long-term dynamics of aboveground carbon (AGC) in forests and their sink-source transitions remain highly uncertain, owing to changing disturbance regimes and inconsistencies in observations, data processing, and analysis methods. Here, we derive reliable, harmonized AGC stocks and fluxes in global forests from 1988 to 2021 at high spatial resolution by integrating multi-source satellite observations with probabilistic deep learning models. Our approach simultaneously estimates AGC and associated uncertainties, showing high reliability across space and time. We find that, although global forests remained an AGC sink of 6.2 PgC over 30 years, moist tropical forests shifted to a substantial AGC source between 2001 and 2010 and, together with boreal forests, transitioned toward a source in the 2011-2021 period. Temperate, dry tropical and subtropical forests generally exhibited increasing AGC stocks, although Europe and Australia became sources after 2011. Regionally, pronounced sink-to-source transitions occurred in tropical forests over the past three decades. The interannual relationship between global atmospheric CO2 growth rates and tropical AGC flux variability became increasingly negative, reaching Pearson’s r = -0.63 (p < 0.05) in the most recent decade. In the Brazilian Amazon, the contribution of deforested regions to AGC losses declined from 60% in 1989-2000 to 13% in 2011-2021, while the share from untouched areas increased from 33% to 76%. Our findings suggest a growing role of tropical forest AGC in modulating variability in the terrestrial carbon cycle, with anthropogenic climate change potentially contributing increasingly to AGC changes, particularly in previously untouched areas.

arxiv情報

著者 Zhen Qian,Sebastian Bathiany,Teng Liu,Lana L. Blaschke,Hoong Chen Teo,Niklas Boers
発行日 2025-06-13 15:29:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.geo-ph | Decadal sink-source shifts of forest aboveground carbon since 1988 はコメントを受け付けていません

Black-Box Adversarial Attacks on LLM-Based Code Completion

要約

大規模な言語モデル(LLM)を搭載した最新のコード完了エンジンは、機能的に正しいコードを生成する強力な機能を備えた何百万人もの開発者を支援します。
この人気のため、LLMベースのコード完了に依存するセキュリティの意味を調査することが重要です。
この作業では、最先端のブラックボックスLLMベースのコード完了エンジンが、敵が不安定なコード生成の割合を大幅に上げるために敵によって密かに偏っていることを実証します。
この目標を達成するINSECという名前の最初の攻撃を提示します。
INSECは、完了入力の短いコメントとして攻撃文字列を注入することにより機能します。
攻撃文字列は、慎重に設計された初期化スキームのセットから始まるクエリベースの最適化手順を通じて作成されます。
INSECの幅広い適用性と有効性を示し、さまざまな最先端のオープンソースモデルとブラックボックスコマーシャルサービス(Openai APIやGithub Copilotなど)で評価します。
5つのプログラミング言語で16個のCWEをカバーするセキュリティ批判的なテストケースの多様なセットでは、INSECは生成されたコードの機能的正しさを維持しながら、生成された不安定なコードの割合を50%以上増加させます。
INSECは実用的であると考えています。コモディティハードウェアで開発するには、低リソースと10米ドル未満のコストが必要です。
さらに、GitHub Copilot ExtensionにINSECをステルスに注入するIDEプラグインを開発することにより、攻撃の実際の展開性を紹介します。

要約(オリジナル)

Modern code completion engines, powered by large language models (LLMs), assist millions of developers with their strong capabilities to generate functionally correct code. Due to this popularity, it is crucial to investigate the security implications of relying on LLM-based code completion. In this work, we demonstrate that state-of-the-art black-box LLM-based code completion engines can be stealthily biased by adversaries to significantly increase their rate of insecure code generation. We present the first attack, named INSEC, that achieves this goal. INSEC works by injecting an attack string as a short comment in the completion input. The attack string is crafted through a query-based optimization procedure starting from a set of carefully designed initialization schemes. We demonstrate INSEC’s broad applicability and effectiveness by evaluating it on various state-of-the-art open-source models and black-box commercial services (e.g., OpenAI API and GitHub Copilot). On a diverse set of security-critical test cases, covering 16 CWEs across 5 programming languages, INSEC increases the rate of generated insecure code by more than 50%, while maintaining the functional correctness of generated code. We consider INSEC practical — it requires low resources and costs less than 10 US dollars to develop on commodity hardware. Moreover, we showcase the attack’s real-world deployability, by developing an IDE plug-in that stealthily injects INSEC into the GitHub Copilot extension.

arxiv情報

著者 Slobodan Jenko,Niels Mündler,Jingxuan He,Mark Vero,Martin Vechev
発行日 2025-06-13 15:36:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.PL, cs.SE | Black-Box Adversarial Attacks on LLM-Based Code Completion はコメントを受け付けていません

Understanding Input Selectivity in Mamba: Impact on Approximation Power, Memorization, and Associative Recall Capacity

要約

状態空間モデル(SSM)、特にMambaは最近、トランスの有望な代替品として浮上しています。
Mambaは、SSM層(S6)に入力選択性を導入し、畳み込みとゲーティングをブロック定義に組み込みます。
これらの変更は、SSMの前任者に対するMambaのパフォーマンスを改善しますが、MAMBAが入力選択性によって提供される追加の機能をどのように活用するか、およびこれらがMAMBAアーキテクチャの他の操作とどのように相互作用するかはほとんど不明のままです。
この作業では、マンバにおける入力選択性の役割を分かり、関数近似の出力、長期的な暗記、および連想リコール能力への影響を調査します。
特に:(i)マンバのS6層がHaarウェーブレットへの投影を表すことができることを証明し、実際に発生する不連続機能を近似する斜めのSSM(S4D)の前身にエッジを提供します。
(ii)S6層がどのようにメモリ減衰に動的に対抗できるかを示します。
(iii)Mamba、Mamba-2、およびS4Dのさまざまなミキサーを使用したMAMBAアーキテクチャを使用して、MQAR連合リコールタスクに分析ソリューションを提供します。
具体的なタスクに関する経験的な結果を伴う理論的構成の緊密性を示します。
私たちの調査結果は、マンバの機械的な理解を提供し、改善の機会を明らかにします。

要約(オリジナル)

State-Space Models (SSMs), and particularly Mamba, have recently emerged as a promising alternative to Transformers. Mamba introduces input selectivity to its SSM layer (S6) and incorporates convolution and gating into its block definition. While these modifications do improve Mamba’s performance over its SSM predecessors, it remains largely unclear how Mamba leverages the additional functionalities provided by input selectivity, and how these interact with the other operations in the Mamba architecture. In this work, we demystify the role of input selectivity in Mamba, investigating its impact on function approximation power, long-term memorization, and associative recall capabilities. In particular: (i) we prove that the S6 layer of Mamba can represent projections onto Haar wavelets, providing an edge over its Diagonal SSM (S4D) predecessor in approximating discontinuous functions commonly arising in practice; (ii) we show how the S6 layer can dynamically counteract memory decay; (iii) we provide analytical solutions to the MQAR associative recall task using the Mamba architecture with different mixers — Mamba, Mamba-2, and S4D. We demonstrate the tightness of our theoretical constructions with empirical results on concrete tasks. Our findings offer a mechanistic understanding of Mamba and reveal opportunities for improvement.

arxiv情報

著者 Ningyuan Huang,Miguel Sarabia,Abhinav Moudgil,Pau Rodriguez,Luca Zappella,Federico Danieli
発行日 2025-06-13 15:38:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, cs.LG, I.2.0 | Understanding Input Selectivity in Mamba: Impact on Approximation Power, Memorization, and Associative Recall Capacity はコメントを受け付けていません

Measurement-aligned Flow for Inverse Problem

要約

拡散モデルは、逆の問題を解決するための複雑な事前情報を組み込む強力な方法を提供します。
ただし、既存の方法は、特に非ガウスまたは未知のノイズの挑戦的な設定で、事前および測定における矛盾する信号からのガイダンスを正しく組み込むのに苦労しています。
これらのギャップを橋渡しするために、測定に合わせたサンプリング(MAS)を提案します。これは、以前の情報と測定情報のバランスをより柔軟にバランスさせることができる線形逆問題解決のための新しいフレームワークです。
MASは、DDNMやDAPSなどの既存のアプローチを統合して拡張し、新しい最適化の観点を提供します。
MASは、既知のガウスノイズ、不明または非ガウスノイズタイプを処理するために一般化できます。
広範な実験は、MASが一貫してさまざまなタスクで最新の方法を上回ることを示しています。

要約(オリジナル)

Diffusion models provide a powerful way to incorporate complex prior information for solving inverse problems. However, existing methods struggle to correctly incorporate guidance from conflicting signals in the prior and measurement, especially in the challenging setting of non-Gaussian or unknown noise. To bridge these gaps, we propose Measurement-Aligned Sampling (MAS), a novel framework for linear inverse problem solving that can more flexibly balance prior and measurement information. MAS unifies and extends existing approaches like DDNM and DAPS, and offers a new optimization perspective. MAS can generalize to handle known Gaussian noise, unknown or non-Gaussian noise types. Extensive experiments show that MAS consistently outperforms state-of-the-art methods across a range of tasks.

arxiv情報

著者 Shaorong Zhang,Rob Brekelmans,Yunshu Wu,Greg Ver Steeg
発行日 2025-06-13 15:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Measurement-aligned Flow for Inverse Problem はコメントを受け付けていません

Scalable Generalized Bayesian Online Neural Network Training for Sequential Decision Making

要約

オンライン学習のためのスケーラブルなアルゴリズムと、シーケンシャルな意思決定タスクのために設計されたニューラルネットワークパラメーターの一般化ベイジアン推論を紹介します。
私たちの方法は、パラメーター誤差共分散のブロック二角近似を介した高速低ランクの更新と、意思決定に使用する明確に定義された事後予測分布を含む、頻繁な頻度とベイジアンフィルタリングの強度を組み合わせています。
より正確には、主な方法では、隠されたレイヤーパラメーターの低ランクエラー共分散と、最終層パラメーターのフルランクエラー共分散を更新します。
これは不適切な後方を特徴づけますが、結果として生じる後部予測分布が明確に定義されていることを示します。
当社の方法は、すべてのネットワークパラメーターをオンラインで更新し、リプレイバッファーやオフラインの再訓練を必要としません。
経験的に、私たちの方法は、(非定常的な)文脈的盗賊の問題とベイズの最適化の問題の速度と精度の間の競争的トレードオフを達成することを経験的に示しています。

要約(オリジナル)

We introduce scalable algorithms for online learning and generalized Bayesian inference of neural network parameters, designed for sequential decision making tasks. Our methods combine the strengths of frequentist and Bayesian filtering, which include fast low-rank updates via a block-diagonal approximation of the parameter error covariance, and a well-defined posterior predictive distribution that we use for decision making. More precisely, our main method updates a low-rank error covariance for the hidden layers parameters, and a full-rank error covariance for the final layer parameters. Although this characterizes an improper posterior, we show that the resulting posterior predictive distribution is well-defined. Our methods update all network parameters online, with no need for replay buffers or offline retraining. We show, empirically, that our methods achieve a competitive tradeoff between speed and accuracy on (non-stationary) contextual bandit problems and Bayesian optimization problems.

arxiv情報

著者 Gerardo Duran-Martin,Leandro Sánchez-Betancourt,Álvaro Cartea,Kevin Murphy
発行日 2025-06-13 15:44:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Scalable Generalized Bayesian Online Neural Network Training for Sequential Decision Making はコメントを受け付けていません

Convergence of Momentum-Based Optimization Algorithms with Time-Varying Parameters

要約

この論文では、「運動量」用語を使用する確率的最適化のための統一されたアルゴリズムを提示します。
言い換えれば、確率的勾配は、目的関数の現在の真の勾配だけでなく、前の反復での真の勾配にも依存します。
私たちの定式化には、確率的重ボール(SHB)と、特別なケースとしての確率的ネステロフ加速勾配(SNAG)アルゴリズムが含まれます。
さらに、製剤では、運動量の項は時間の関数として変化することが許可されています(つまり、反復カウンター)。
確率的勾配に関する仮定は、偏っている可能性があり、時間の関数として無制限の方法で成長する条件付きの分散を持つという点で、文献で最も一般的です。
この最後の機能は、理論を「ゼロオーダー」メソッドに適用できるようにするために重要です。ここで、勾配は2つの関数評価のみを使用して推定されます。
統一アルゴリズムの収束に十分な条件のセットを提示します。
これらの条件は、標準的な確率的勾配降下のための、おなじみのロビンズ・モンロとキーファー・ウルフウィッツ・ブラムの条件の自然な一般化です。
また、時変運動量パラメーターを使用して、SHBアルゴリズムの文献から別の方法を分析し、実行不可能であることを示します。

要約(オリジナル)

In this paper, we present a unified algorithm for stochastic optimization that makes use of a ‘momentum’ term; in other words, the stochastic gradient depends not only on the current true gradient of the objective function, but also on the true gradient at the previous iteration. Our formulation includes the Stochastic Heavy Ball (SHB) and the Stochastic Nesterov Accelerated Gradient (SNAG) algorithms as special cases. In addition, in our formulation, the momentum term is allowed to vary as a function of time (i.e., the iteration counter). The assumptions on the stochastic gradient are the most general in the literature, in that it can be biased, and have a conditional variance that grows in an unbounded fashion as a function of time. This last feature is crucial in order to make the theory applicable to ‘zero-order’ methods, where the gradient is estimated using just two function evaluations. We present a set of sufficient conditions for the convergence of the unified algorithm. These conditions are natural generalizations of the familiar Robbins-Monro and Kiefer-Wolfowitz-Blum conditions for standard stochastic gradient descent. We also analyze another method from the literature for the SHB algorithm with a time-varying momentum parameter, and show that it is impracticable.

arxiv情報

著者 Mathukumalli Vidyasagar
発行日 2025-06-13 15:53:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | Convergence of Momentum-Based Optimization Algorithms with Time-Varying Parameters はコメントを受け付けていません

Non-intrusive Speech Quality Assessment with Diffusion Models Trained on Clean Speech

要約

拡散モデルは、高品質で自然な音声サンプルを生成することに大きな成功を収めていますが、音声の密度推定の可能性はこれまでのところほとんど未踏のままでした。
この作業では、音声品質の評価のためにきれいな音声でのみ訓練された無条件の拡散モデルを活用します。
発話の品質は、決定論的なノーシングプロセスを介して得られた、終了ガウス分布の対応するサンプルの可能性を推定することで評価できることを示します。
結果の方法は純粋に監視されておらず、きれいなスピーチでのみ訓練されているため、注釈に依存しません。
当社の拡散ベースのアプローチは、クリーンな音声事前に活用して、入力がクリーンデータの学習分布にどのように関連するかに基づいて品質を評価します。
私たちの提案された対数尤度は、邪魔な音声品質メトリックとよく相関し、リスニング実験で人間のスコアとの最良の相関を示す有望な結果を示しています。

要約(オリジナル)

Diffusion models have found great success in generating high quality, natural samples of speech, but their potential for density estimation for speech has so far remained largely unexplored. In this work, we leverage an unconditional diffusion model trained only on clean speech for the assessment of speech quality. We show that the quality of a speech utterance can be assessed by estimating the likelihood of a corresponding sample in the terminating Gaussian distribution, obtained via a deterministic noising process. The resulting method is purely unsupervised, trained only on clean speech, and therefore does not rely on annotations. Our diffusion-based approach leverages clean speech priors to assess quality based on how the input relates to the learned distribution of clean data. Our proposed log-likelihoods show promising results, correlating well with intrusive speech quality metrics and showing the best correlation with human scores in a listening experiment.

arxiv情報

著者 Danilo de Oliveira,Julius Richter,Jean-Marie Lemercier,Simon Welker,Timo Gerkmann
発行日 2025-06-13 16:00:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS | Non-intrusive Speech Quality Assessment with Diffusion Models Trained on Clean Speech はコメントを受け付けていません

Guiding Time-Varying Generative Models with Natural Gradients on Exponential Family Manifold

要約

確率モデルの最適化は、統計においてよく研究された分野です。
ただし、生成モデルのトレーニングとの接続は、主に推奨されていないままです。
この論文では、時変生成モデルの進化を指数関数的なファミリマニホールドに投影できることを示し、自然に生成モデルのパラメーターと確率モデルのパラメーター間のリンクを作成します。
次に、自然勾配降下スキームに従ってマニホールドに投影を移動することにより、生成モデルをトレーニングします。
また、このアプローチにより、扱いにくいモデルのMCMCに依存することなく、KL発散の自然勾配を効率的に近似することができます。
さらに、アルゴリズムの粒子バージョンを提案します。アルゴリズムは、指数ファミリ内の任意のパラメトリックモデルのクローズドフォーム更新ルールを備えています。
おもちゃと実世界の実験を通じて、提案されたアルゴリズムの有効性を検証します。
提案されたアルゴリズムのコードは、https://github.com/anewgithubname/ingdにあります。

要約(オリジナル)

Optimising probabilistic models is a well-studied field in statistics. However, its connection with the training of generative models remains largely under-explored. In this paper, we show that the evolution of time-varying generative models can be projected onto an exponential family manifold, naturally creating a link between the parameters of a generative model and those of a probabilistic model. We then train the generative model by moving its projection on the manifold according to the natural gradient descent scheme. This approach also allows us to efficiently approximate the natural gradient of the KL divergence without relying on MCMC for intractable models. Furthermore, we propose particle versions of the algorithm, which feature closed-form update rules for any parametric model within the exponential family. Through toy and real-world experiments, we validate the effectiveness of the proposed algorithms. The code of the proposed algorithms can be found at https://github.com/anewgithubname/iNGD.

arxiv情報

著者 Song Liu,Leyang Wang,Yakun Wang
発行日 2025-06-13 16:17:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Guiding Time-Varying Generative Models with Natural Gradients on Exponential Family Manifold はコメントを受け付けていません