Posterior and variational inference for deep neural networks with heavy-tailed weights

要約

ネットワークの重みをランダムにサンプリングする以前の分布を備えたベイジアンフレームワークの深いニューラルネットワークを検討します。
agapiouとcastillo(2023)の最近のアイデアに続いて、重度の尾のある事前分布が滑らかさへの自動適応を実現することを示しているため、ヘビーテールの重量とreluの活性化に基づいて、単純なベイジアンディープラーニングを導入します。
対応する後方分布は、ノンパラメトリック回帰、幾何学的データ、BESOVスペースなど、さまざまなコンテキストで、基礎となる関数の内因性次元と滑らかさの両方に同時に適応する、最適に近いミニマックス収縮率を達成することを示します。
これまでのところ、ほとんどの動作には事前の配信内にモデル選択の形式が組み込まれていますが、アプローチの重要な側面は、ネットワークのアーキテクチャを学習するためにハイパーパラメーターをサンプリングする必要がないことです。
また、結果の変分カウンターパートを提供します。これは、平均フィールドの変動近似が依然として最適に近い理論的サポートから恩恵を受けることを示しています。

要約(オリジナル)

We consider deep neural networks in a Bayesian framework with a prior distribution sampling the network weights at random. Following a recent idea of Agapiou and Castillo (2023), who show that heavy-tailed prior distributions achieve automatic adaptation to smoothness, we introduce a simple Bayesian deep learning prior based on heavy-tailed weights and ReLU activation. We show that the corresponding posterior distribution achieves near-optimal minimax contraction rates, simultaneously adaptive to both intrinsic dimension and smoothness of the underlying function, in a variety of contexts including nonparametric regression, geometric data and Besov spaces. While most works so far need a form of model selection built-in within the prior distribution, a key aspect of our approach is that it does not require to sample hyperparameters to learn the architecture of the network. We also provide variational Bayes counterparts of the results, that show that mean-field variational approximations still benefit from near-optimal theoretical support.

arxiv情報

著者 Ismaël Castillo,Paul Egels
発行日 2025-04-15 14:29:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | Posterior and variational inference for deep neural networks with heavy-tailed weights はコメントを受け付けていません

The Forward-Forward Algorithm: Characterizing Training Behavior

要約

フォワードフォワードアルゴリズムは、Backpropagationが採用しているフォワードとバックワードパスではなく、2つのフォワードパスで構成される代替学習方法です。
フォワードフォワードネットワークは、単一のグローバルな目的関数ではなく、各フォワードパスのレイヤーアクティベーションに基づいて最適化されたレイヤーローカル損失関数を採用しています。
この作業では、内部行動の機械的理解を追求するためにトレーニングが進むにつれて、モデルと層の精度の変化のダイナミクスが将来順方向のネットワークにおけるダイナミクスを探ります。
さまざまなシステム特性への処理が適用され、トレーニングが進むにつれて層と全体的なモデルの精度の変化、層の深さによる精度の影響、および個々の層の精度が全体的なモデルの精度とどの程度強く相関しているかを調査します。
提示された経験的結果は、層の層がより深い層に深く深く、より浅い層と比較して精度の改善が遅れ、より浅い層の精度が全体的なモデルの精度と強く相関していることを示唆しています。

要約(オリジナル)

The Forward-Forward algorithm is an alternative learning method which consists of two forward passes rather than a forward and backward pass employed by backpropagation. Forward-Forward networks employ layer local loss functions which are optimized based on the layer activation for each forward pass rather than a single global objective function. This work explores the dynamics of model and layer accuracy changes in Forward-Forward networks as training progresses in pursuit of a mechanistic understanding of their internal behavior. Treatments to various system characteristics are applied to investigate changes in layer and overall model accuracy as training progresses, how accuracy is impacted by layer depth, and how strongly individual layer accuracy is correlated with overall model accuracy. The empirical results presented suggest that layers deeper within Forward-Forward networks experience a delay in accuracy improvement relative to shallower layers and that shallower layer accuracy is strongly correlated with overall model accuracy.

arxiv情報

著者 Reece Adamson
発行日 2025-04-15 14:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | The Forward-Forward Algorithm: Characterizing Training Behavior はコメントを受け付けていません

Respiratory Inhaler Sound Event Classification Using Self-Supervised Learning

要約

喘息は、世界中の何百万人もの人々に影響を与える慢性呼吸条件です。
この状態は、ハンドヘルド吸入器を介してコントローラー薬を投与することで管理できますが、臨床研究では、正しい吸入器の使用法への遵守が低いことが示されています。
その結果、多くの患者は、薬の完全な利益を受け取らない場合があります。
吸入音の自動分類が最近研究され、投薬の遵守を評価しています。
ただし、既存の分類モデルは通常、特定の吸入器タイプのデータを使用してトレーニングされており、異なる吸入器のサウンドに一般化する能力は未開拓のままです。
この研究では、このモデルを吸入器音でトレーニング前と微調整することにより、吸入器の音分類のためのWAV2VEC 2.0の自己監視学習モデルを適応させました。
提案されたモデルは、乾燥粉末吸入器とスマートウォッチデバイスを使用して収集されたデータセットの98%のバランスの取れた精度を示しています。
また、結果は、ターゲット吸入器からの最小データでこのモデルを再発行することが、一般的な吸入器サウンド分類モデルを別の吸入器デバイスとオーディオキャプチャハードウェアに適応させるための有望なアプローチであることを示しています。
これは、機械学習モデルを使用した吸入器のアドヒアランスのパーソナライズされた監視のための支援技術としてのスマートウォッチの可能性を実証するフィールドでの最初の研究です。

要約(オリジナル)

Asthma is a chronic respiratory condition that affects millions of people worldwide. While this condition can be managed by administering controller medications through handheld inhalers, clinical studies have shown low adherence to the correct inhaler usage technique. Consequently, many patients may not receive the full benefit of their medication. Automated classification of inhaler sounds has recently been studied to assess medication adherence. However, the existing classification models were typically trained using data from specific inhaler types, and their ability to generalize to sounds from different inhalers remains unexplored. In this study, we adapted the wav2vec 2.0 self-supervised learning model for inhaler sound classification by pre-training and fine-tuning this model on inhaler sounds. The proposed model shows a balanced accuracy of 98% on a dataset collected using a dry powder inhaler and smartwatch device. The results also demonstrate that re-finetuning this model on minimal data from a target inhaler is a promising approach to adapting a generic inhaler sound classification model to a different inhaler device and audio capture hardware. This is the first study in the field to demonstrate the potential of smartwatches as assistive technologies for the personalized monitoring of inhaler adherence using machine learning models.

arxiv情報

著者 Davoud Shariat Panah,Alessandro N Franciosi,Cormac McCarthy,Andrew Hines
発行日 2025-04-15 14:44:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.AS | Respiratory Inhaler Sound Event Classification Using Self-Supervised Learning はコメントを受け付けていません

Reconstructing Fine-Grained Network Data using Autoencoder Architectures with Domain Knowledge Penalties

要約

ネットワークセキュリティモデルを改善するには、粗粒の特徴ベクトルから、個々のパケットを含む細かいネットワークセッションデータを再構築する機能が重要です。
ただし、生ネットワークトラフィックの大規模な収集とストレージは、特にまれなサイバー攻撃サンプルをキャプチャするために、大きな課題をもたらします。
これらの課題は、モデルトレーニングと将来の脅威検出のための包括的なデータセットを保持する能力を妨げています。
これに対処するために、ネットワークデータをエンコードおよび再構築するための正式な方法に導かれる機械学習アプローチを提案します。
この方法では、ドメインに基づいたペナルティを備えた自動エンコーダーモデルを採用して、構造化された機能表現からPCAPセッションヘッダーを帰属させます。
実験結果は、制約ベースの損失項を介してドメインの知識を組み込むことで、特にセッションレベルのエンコーディングを備えたカテゴリの特徴について、再構成の精度が大幅に向上することを示しています。
詳細なネットワークセッションの効率的な再構築を可能にすることにより、当社のアプローチにより、プライバシーとストレージ効率を維持しながら、データ効率の高いモデルトレーニングが促進されます。

要約(オリジナル)

The ability to reconstruct fine-grained network session data, including individual packets, from coarse-grained feature vectors is crucial for improving network security models. However, the large-scale collection and storage of raw network traffic pose significant challenges, particularly for capturing rare cyberattack samples. These challenges hinder the ability to retain comprehensive datasets for model training and future threat detection. To address this, we propose a machine learning approach guided by formal methods to encode and reconstruct network data. Our method employs autoencoder models with domain-informed penalties to impute PCAP session headers from structured feature representations. Experimental results demonstrate that incorporating domain knowledge through constraint-based loss terms significantly improves reconstruction accuracy, particularly for categorical features with session-level encodings. By enabling efficient reconstruction of detailed network sessions, our approach facilitates data-efficient model training while preserving privacy and storage efficiency.

arxiv情報

著者 Mark Cheung,Sridhar Venkatesan
発行日 2025-04-15 14:51:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NI | Reconstructing Fine-Grained Network Data using Autoencoder Architectures with Domain Knowledge Penalties はコメントを受け付けていません

Multi-Agent Reinforcement Learning for Greenhouse Gas Offset Credit Markets

要約

気候変動は、人類の将来に対する大きな脅威であり、その影響は過剰な人工温室ガスの排出によって強化されています。
政府がこれらの排出を制御するために採用できる方法の1つは、企業に排出制限を提供し、限界を超える過剰な排出量を罰することです。
また、炭素削減とキャプチャプロジェクトに投資することを選択した企業によって、過剰な排出量が相殺される場合があります。
これらのプロジェクトは、企業の過剰な排出量を相殺するために規制機関に提出できるオフセットクレジットを生成します。または、他の企業と取引することができます。
この作業では、オフセットクレジット市場の有限エージェントナッシュ平衡を特徴付けます。
コンピューティングナッシュ平衡はNPハードの問題であるため、最新の強化学習技術を利用して、市場のナッシュ平衡を効率的に推定します。
気候をテーマにした金融市場に適用される補強学習方法を採用することの妥当性だけでなく、数値実験を通じてナッシュ平衡を守るときに発生する大幅な金融貯蓄企業が達成する可能性があることを示しています。

要約(オリジナル)

Climate change is a major threat to the future of humanity, and its impacts are being intensified by excess man-made greenhouse gas emissions. One method governments can employ to control these emissions is to provide firms with emission limits and penalize any excess emissions above the limit. Excess emissions may also be offset by firms who choose to invest in carbon reducing and capturing projects. These projects generate offset credits which can be submitted to a regulating agency to offset a firm’s excess emissions, or they can be traded with other firms. In this work, we characterize the finite-agent Nash equilibrium for offset credit markets. As computing Nash equilibria is an NP-hard problem, we utilize the modern reinforcement learning technique Nash-DQN to efficiently estimate the market’s Nash equilibria. We demonstrate not only the validity of employing reinforcement learning methods applied to climate themed financial markets, but also the significant financial savings emitting firms may achieve when abiding by the Nash equilibria through numerical experiments.

arxiv情報

著者 Liam Welsh,Udit Grover,Sebastian Jaimungal
発行日 2025-04-15 14:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-fin.MF | Multi-Agent Reinforcement Learning for Greenhouse Gas Offset Credit Markets はコメントを受け付けていません

Frequency-Aware Attention-LSTM for PM$_{2.5}$ Time Series Forecasting

要約

PM $ _ {2.5} $濃度予測の精度と堅牢性を高めるために、このホワイトペーパーでは、周波数ドメイン分解、時間モデリング、および注意ベースの改良を統合する周波数認識LSTMネットワークであるFalnetを紹介します。
このモデルは、最初にSTLとFFTを適用して、トレンド、季節性、および除去された残留成分を抽出し、高周波ノイズを効果的に除外します。
ろ過された残差は、長期依存性をキャプチャするために積み重ねられたLSTMに供給され、その後にキータイムステップに動的に焦点を当てるマルチヘッド注意メカニズムが続きます。
実世界の都市大気質データセットで実施された実験は、FalnetがMAE、RMSE、$ r^2 $などの標準メトリック全体で従来のモデルを常に上回ることを示しています。
このモデルは、汚染ピークと非定常条件中の鋭い変動をキャプチャする際の強い適応性を示しています。
これらの結果は、リアルタイムの大気汚染予測、環境リスク評価、意思決定サポートのためのFalnetの有効性と一般化可能性を検証します。

要約(オリジナル)

To enhance the accuracy and robustness of PM$_{2.5}$ concentration forecasting, this paper introduces FALNet, a Frequency-Aware LSTM Network that integrates frequency-domain decomposition, temporal modeling, and attention-based refinement. The model first applies STL and FFT to extract trend, seasonal, and denoised residual components, effectively filtering out high-frequency noise. The filtered residuals are then fed into a stacked LSTM to capture long-term dependencies, followed by a multi-head attention mechanism that dynamically focuses on key time steps. Experiments conducted on real-world urban air quality datasets demonstrate that FALNet consistently outperforms conventional models across standard metrics such as MAE, RMSE, and $R^2$. The model shows strong adaptability in capturing sharp fluctuations during pollution peaks and non-stationary conditions. These results validate the effectiveness and generalizability of FALNet for real-time air pollution prediction, environmental risk assessment, and decision-making support.

arxiv情報

著者 Jiahui Lu,Shuang Wu,Zhenkai Qin,Guifang Yang
発行日 2025-04-15 15:16:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Frequency-Aware Attention-LSTM for PM$_{2.5}$ Time Series Forecasting はコメントを受け付けていません

Efficient and Stable Multi-Dimensional Kolmogorov-Smirnov Distance

要約

確率分布間のコルモゴロフスミルノフ距離を多次元設定に延長し、この一般化にアプローチする適切な方法について新しい議論を行うことを再検討します。
提案された定式化は、直交を支配する長方形範囲(r^dのd側の長方形)の差を最大化し、積分確率メトリックです。
また、分布と分布のサンプル間の距離がサンプルサイズが増加するにつれて0に収束し、このレートを削減することを証明します。
さらに、この同じ近似誤差まで、4次元以下で距離を効率的に計算できることを示します。
具体的には、ランタイムは、そのエラーに必要なサンプルのサイズがほぼ線形です。
これにより、この距離を使用してDelta Precision 2サンプル仮説検定を導き出します。
最後に、これらのメトリックおよび近似特性が他の一般的なバリアントについては保持されていないことを示します。

要約(オリジナル)

We revisit extending the Kolmogorov-Smirnov distance between probability distributions to the multidimensional setting and make new arguments about the proper way to approach this generalization. Our proposed formulation maximizes the difference over orthogonal dominating rectangular ranges (d-sided rectangles in R^d), and is an integral probability metric. We also prove that the distance between a distribution and a sample from the distribution converges to 0 as the sample size grows, and bound this rate. Moreover, we show that one can, up to this same approximation error, compute the distance efficiently in 4 or fewer dimensions; specifically the runtime is near-linear in the size of the sample needed for that error. With this, we derive a delta-precision two-sample hypothesis test using this distance. Finally, we show these metric and approximation properties do not hold for other popular variants.

arxiv情報

著者 Peter Matthew Jacobs,Foad Namjoo,Jeff M. Phillips
発行日 2025-04-15 15:42:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.LG, stat.CO | Efficient and Stable Multi-Dimensional Kolmogorov-Smirnov Distance はコメントを受け付けていません

Limits of Discrete Energy of Families of Increasing Sets

要約

セットのhausdorff寸法は、Rieszエネルギーを使用して検出できます。
ここでは、一連のポイント、$ \ {x_n \} $、 “ fill in ” a set $ e \ subset \ mathbb {r}^d $を適切な意味で考慮し、これらのセットのRieszエネルギーとの離散アナログが$ e $のhausdorff dimensionに使用できる程度を調査することを検討します。
また、データサイエンスおよびERD \ h {o} S/Falconerタイプの問題へのアプリケーションについても説明します。

要約(オリジナル)

The Hausdorff dimension of a set can be detected using the Riesz energy. Here, we consider situations where a sequence of points, $\{x_n\}$, “fills in” a set $E \subset \mathbb{R}^d$ in an appropriate sense and investigate the degree to which the discrete analog to the Riesz energy of these sets can be used to bound the Hausdorff dimension of $E$. We also discuss applications to data science and Erd\H{o}s/Falconer type problems.

arxiv情報

著者 Hari Nathan
発行日 2025-04-15 15:45:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.CA, math.MG | Limits of Discrete Energy of Families of Increasing Sets はコメントを受け付けていません

Differentially Private Geodesic and Linear Regression

要約

統計アプリケーションでは、マニホールドなどの非線形空間に住んでいるデータ構造に遭遇することがますます一般的になっています。
統計学習の最も基本的な方法の1つである古典的な線形回帰は、ユークリッド空間に住むと想定される独立変数と応答変数との関係を捉えています。
したがって、測地線の回帰は、応答変数がリーマニアの多様体に存在する拡張として現れました。
線形回帰と同様に、測地線回帰のパラメーターは、機密データの関係をキャプチャするため、当該パラメーターのプライバシー保護慣行を考慮する必要があります。
RiemannianマニホールドのK-ノーム勾配(KNG)メカニズムを介して、測地線回帰の差次的にプライベートな(DP)パラメーターをリリースすることを検討します。
パラメーターの感度の理論的境界を導き出し、それぞれのヤコビフィールド、したがって空間の曲率に結びついていることを示します。
これは、fre \ ‘echet平均の差別的なプライバシーの最近の調査結果を裏付けています。
領域での方法論の有効性、$ \ mbs^2 \ Subset \ mbr^3 $を示し、それはリーマニアの多様体にとって一般的であるため、線形回帰の場合に測地線の回帰を単純化するユークリッド空間の多様体が一般的です。
私たちの方法論は、あらゆるリーマニアン多様体にとって一般的であるため、医療イメージングやコンピュータービジョンなどのドメインのデータに適しています。

要約(オリジナル)

In statistical applications it has become increasingly common to encounter data structures that live on non-linear spaces such as manifolds. Classical linear regression, one of the most fundamental methodologies of statistical learning, captures the relationship between an independent variable and a response variable which both are assumed to live in Euclidean space. Thus, geodesic regression emerged as an extension where the response variable lives on a Riemannian manifold. The parameters of geodesic regression, as with linear regression, capture the relationship of sensitive data and hence one should consider the privacy protection practices of said parameters. We consider releasing Differentially Private (DP) parameters of geodesic regression via the K-Norm Gradient (KNG) mechanism for Riemannian manifolds. We derive theoretical bounds for the sensitivity of the parameters showing they are tied to their respective Jacobi fields and hence the curvature of the space. This corroborates recent findings of differential privacy for the Fr\’echet mean. We demonstrate the efficacy of our methodology on the sphere, $\mbS^2\subset\mbR^3$ and, since it is general to Riemannian manifolds, the manifold of Euclidean space which simplifies geodesic regression to a case of linear regression. Our methodology is general to any Riemannian manifold and thus it is suitable for data in domains such as medical imaging and computer vision.

arxiv情報

著者 Aditya Kulkarni,Carlos Soto
発行日 2025-04-15 15:45:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Differentially Private Geodesic and Linear Regression はコメントを受け付けていません

Inferring Outcome Means of Exponential Family Distributions Estimated by Deep Neural Networks

要約

深いニューラルネットワーク(DNN)は予測に広く使用されていますが、カテゴリまたは指数関数的な家族の結果に対するDNNが推定する被験者固有の手段に対する推論は露出していないままです。
一般化されたノンパラメトリック回帰モデル(GNRM)の下でDNN推定器を提案し、厳密な推論フレームワークを開発することにより、これに対処します。
予測誤差と入力の間の独立性を想定してエラーを確立することを想定する既存のアプローチ、GNRMでしばしば違反される条件は、依存性を可能にし、理論分析はGNRMの下で推論を描画する実現可能性を示しています。
推論を実装するために、U統計とHoeffding分解を活用してDNN推定の信頼できる信頼区間を構築するアンサンブルサブサンプリング法(ESM)を検討します。
GNRMの設定では、ESMがモデルのない分散推定を可能にし、母集団の個人の不均一性を説明できることを示します。
ノンパラメトリックロジスティック、ポアソン、および二項回帰モデルのシミュレーションを通じて、メソッドの有効性と効率性を実証します。
さらに、ICU患者からの匿名化された健康記録の大規模なコレクションである電子集中治療室(EICU)データセットにこの方法を適用して、ICUの再入院リスクを予測し、臨床的意思決定のための患者中心の洞察を提供します。

要約(オリジナル)

While deep neural networks (DNNs) are widely used for prediction, inference on DNN-estimated subject-specific means for categorical or exponential family outcomes remains underexplored. We address this by proposing a DNN estimator under generalized nonparametric regression models (GNRMs) and developing a rigorous inference framework. Unlike existing approaches that assume independence between prediction errors and inputs to establish the error bound, a condition often violated in GNRMs, we allow for dependence and our theoretical analysis demonstrates the feasibility of drawing inference under GNRMs. To implement inference, we consider an Ensemble Subsampling Method (ESM) that leverages U-statistics and the Hoeffding decomposition to construct reliable confidence intervals for DNN estimates. We show that, under GNRM settings, ESM enables model-free variance estimation and accounts for heterogeneity among individuals in the population. Through simulations under nonparametric logistic, Poisson, and binomial regression models, we demonstrate the effectiveness and efficiency of our method. We further apply the method to the electronic Intensive Care Unit (eICU) dataset, a large-scale collection of anonymized health records from ICU patients, to predict ICU readmission risk and offer patient-centric insights for clinical decision-making.

arxiv情報

著者 Xuran Meng,Yi Li
発行日 2025-04-15 15:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | Inferring Outcome Means of Exponential Family Distributions Estimated by Deep Neural Networks はコメントを受け付けていません