OmniJet-$α_C$: Learning point cloud calorimeter simulations using generative transformers

要約

高粒度熱量計のポイントクラウドとして熱量計シャワーを生成するための生成変圧器の最初の使用を示します。
オムニエット-$ {\ alpha} $モデルのトークン剤と生成部分を使用して、整数のシーケンスとして検出器のヒットを表します。
このモデルは可変長さのシーケンスを許可します。つまり、現実的なシャワー開発をサポートし、ヒット数を条件付ける必要はありません。
トークン化はシャワーをポイントクラウドとして表すため、モデルは特定のボクセルグリッドに限定されることなく、シャワーのジオメトリを学習します。

要約(オリジナル)

We show the first use of generative transformers for generating calorimeter showers as point clouds in a high-granularity calorimeter. Using the tokenizer and generative part of the OmniJet-${\alpha}$ model, we represent the hits in the detector as sequences of integers. This model allows variable-length sequences, which means that it supports realistic shower development and does not need to be conditioned on the number of hits. Since the tokenization represents the showers as point clouds, the model learns the geometry of the showers without being restricted to any particular voxel grid.

arxiv情報

著者 Joschka Birk,Frank Gaede,Anna Hallin,Gregor Kasieczka,Martina Mozzanica,Henning Rose
発行日 2025-06-11 15:49:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, hep-ex, hep-ph, physics.ins-det | コメントする

Learning single-index models via harmonic decomposition

要約

シングルインデックスモデルの学習の問題を研究します。ここで、ラベル$ y \ in \ mathbb {r} $は、入力$ \ boldsymbol {x} \ in \ mathbb {r}^d $に依存します。
以前の研究では、ガウスの入力下では、$ \ boldsymbol {w} _*$を回復する統計的および計算上の複雑さが、リンク関数のエルマイト拡張によって支配されることが示されています。
この論文では、新しい視点を提案します。「エルミット多項式」ではなく、「球状の高調波」は、本質的な「回転対称性」を捉えているため、この問題の自然な基礎を提供すると主張します。
この洞察に基づいて、私たちはarbitrary意的に対称的な入力分布の下で単一インデックスモデルを学習することの複雑さを特徴付けます。
最適なサンプルの複雑さまたは最適なランタイムのいずれかをそれぞれ達成し、両方を達成する推定値が一般的に存在しない可能性があると主張する、テンソルの展開とオンラインSGDに基づいて、推定器の2つのファミリーを導入します。
ガウスの入力に特化した場合、私たちの理論は既存の結果を回復して明確にするだけでなく、以前見落とされていた新しい現象を明らかにします。

要約(オリジナル)

We study the problem of learning single-index models, where the label $y \in \mathbb{R}$ depends on the input $\boldsymbol{x} \in \mathbb{R}^d$ only through an unknown one-dimensional projection $\langle \boldsymbol{w}_*,\boldsymbol{x}\rangle$. Prior work has shown that under Gaussian inputs, the statistical and computational complexity of recovering $\boldsymbol{w}_*$ is governed by the Hermite expansion of the link function. In this paper, we propose a new perspective: we argue that ‘spherical harmonics’ — rather than ‘Hermite polynomials’ — provide the natural basis for this problem, as they capture its intrinsic ‘rotational symmetry’. Building on this insight, we characterize the complexity of learning single-index models under arbitrary spherically symmetric input distributions. We introduce two families of estimators — based on tensor unfolding and online SGD — that respectively achieve either optimal sample complexity or optimal runtime, and argue that estimators achieving both may not exist in general. When specialized to Gaussian inputs, our theory not only recovers and clarifies existing results but also reveals new phenomena that had previously been overlooked.

arxiv情報

著者 Nirmit Joshi,Hugo Koubbi,Theodor Misiakiewicz,Nathan Srebro
発行日 2025-06-11 15:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | コメントする

A look at adversarial attacks on radio waveforms from discrete latent space

要約

デジタル無線波形を個別の潜在スペースにマッピングするVQVAEを設計し、元のデータの完全に分類可能な再構築を生成すると、ここでは、高SNR無線蛍光(RF)データポイントで敵対的な攻撃が実行されたときにVQVAEの攻撃抑制特性を分析します。
デジタル変調された波形クラスのサブセットからの振幅変調をターゲットにするために、最初に、値が敵対的に変化した相と直前の成分の間の位相を維持する敵対的な攻撃を作成します。
位相が保存されていないのと同じ強度の敵対的な攻撃と比較します。
元のデータに100%の精度を提供するようにトレーニングされた分類器で、このような敵対例の分類精度をテストします。
VQVAEが攻撃の強さを抑制する能力を評価するために、敵対的なデータポイントのVQVAEによる再構築の分類器の精度を評価し、VQVAEが攻撃の有効性を大幅に低下させることを示します。
また、攻撃されたデータのI/Q平面図、それらの再構成、および元のデータを比較します。
最後に、複数の方法とメトリックを使用して、VQVAE潜在スペースの確率分布を攻撃の有無にかかわらず比較します。
攻撃強度を変えると、攻撃を検出するのに役立つかもしれない離散空間の興味深い特性が観察されます。

要約(オリジナル)

Having designed a VQVAE that maps digital radio waveforms into discrete latent space, and yields a perfectly classifiable reconstruction of the original data, we here analyze the attack suppressing properties of VQVAE when an adversarial attack is performed on high-SNR radio-frequency (RF) data-points. To target amplitude modulations from a subset of digitally modulated waveform classes, we first create adversarial attacks that preserve the phase between the in-phase and quadrature component whose values are adversarially changed. We compare them with adversarial attacks of the same intensity where phase is not preserved. We test the classification accuracy of such adversarial examples on a classifier trained to deliver 100% accuracy on the original data. To assess the ability of VQVAE to suppress the strength of the attack, we evaluate the classifier accuracy on the reconstructions by VQVAE of the adversarial datapoints and show that VQVAE substantially decreases the effectiveness of the attack. We also compare the I/Q plane diagram of the attacked data, their reconstructions and the original data. Finally, using multiple methods and metrics, we compare the probability distribution of the VQVAE latent space with and without attack. Varying the attack strength, we observe interesting properties of the discrete space, which may help detect the attacks.

arxiv情報

著者 Attanasia Garuso,Silvija Kokalj-Filipovic,Yagna Kaasaragadda
発行日 2025-06-11 16:09:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

‘What are my options?’: Explaining RL Agents with Diverse Near-Optimal Alternatives (Extended)

要約

この作業では、L4DC 2025で最初に提案された多様な最適な代替案(DNA)と呼ばれる説明可能な強化学習への新しいアプローチの拡張的な議論を提供します。DNAは、軌道鉱床剤の合理的な「オプション」のセットを求め、ユークリデン宇宙で質的に多様な軌道を生成するためのポリシーを最適化します。
説明可能性の精神で、これらの異なるポリシーは、人間のユーザーが選択できる利用可能な軌道形状の観点から、エージェントのオプションを「説明」するために使用されます。
特に、DNAは、エージェントが連続軌跡に限定されているマルコフ決定プロセスに関する値関数ベースのポリシーに適用されます。
ここでは、局所的な修正されたQラーニングの問題で報酬の形成を使用して、保証されたエプシロン最適性を備えた明確なポリシーを解決するDNAについて説明します。
シミュレーションで有意義に異なる「オプション」を構成する定性的に異なるポリシーを正常に返すことを示しています。
説明的な動機を超えて、この作業は、RLでの探査と適応計画の新しい可能性を開きます。

要約(オリジナル)

In this work, we provide an extended discussion of a new approach to explainable Reinforcement Learning called Diverse Near-Optimal Alternatives (DNA), first proposed at L4DC 2025. DNA seeks a set of reasonable ‘options’ for trajectory-planning agents, optimizing policies to produce qualitatively diverse trajectories in Euclidean space. In the spirit of explainability, these distinct policies are used to ‘explain’ an agent’s options in terms of available trajectory shapes from which a human user may choose. In particular, DNA applies to value function-based policies on Markov decision processes where agents are limited to continuous trajectories. Here, we describe DNA, which uses reward shaping in local, modified Q-learning problems to solve for distinct policies with guaranteed epsilon-optimality. We show that it successfully returns qualitatively different policies that constitute meaningfully different ‘options’ in simulation, including a brief comparison to related approaches in the stochastic optimization field of Quality Diversity. Beyond the explanatory motivation, this work opens new possibilities for exploration and adaptive planning in RL.

arxiv情報

著者 Noel Brindise,Vijeth Hebbar,Riya Shah,Cedric Langbort
発行日 2025-06-11 16:15:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Temperature Optimization for Bayesian Deep Learning

要約

寒冷後効果(CPE)は、ベイジアンディープラーニング(BDL)の現象であり、後部を寒い温度に抑えると、後部予測分布(PPD)の予測性能が改善されることがよくあります。
「CPE」という用語は、より低い温度が本質的に優れていることを示唆していますが、BDLコミュニティは、これが常にそうではないことをますます認識しています。
それにもかかわらず、グリッド検索を超える最適な温度を見つけるための体系的な方法は残っていません。
この作業では、データ駆動型のアプローチを提案して、テストログ予測密度を最大化し、温度をモデルパラメーターとして扱い、データから直接推定する温度を選択します。
私たちのメソッドは、回帰タスクと分類タスクの両方で、わずかなコストでグリッド検索と同等に機能することを経験的に実証します。
最後に、BDLと一般化されたベイズコミュニティの間のCPEの異なる視点を強調します。前者は主にPPDの予測性能を強調していますが、後者はモデルの誤りの下での事後の有用性を優先します。
これらの明確な目的は、さまざまな温度好みにつながります。

要約(オリジナル)

The Cold Posterior Effect (CPE) is a phenomenon in Bayesian Deep Learning (BDL), where tempering the posterior to a cold temperature often improves the predictive performance of the posterior predictive distribution (PPD). Although the term `CPE’ suggests colder temperatures are inherently better, the BDL community increasingly recognizes that this is not always the case. Despite this, there remains no systematic method for finding the optimal temperature beyond grid search. In this work, we propose a data-driven approach to select the temperature that maximizes test log-predictive density, treating the temperature as a model parameter and estimating it directly from the data. We empirically demonstrate that our method performs comparably to grid search, at a fraction of the cost, across both regression and classification tasks. Finally, we highlight the differing perspectives on CPE between the BDL and Generalized Bayes communities: while the former primarily emphasizes the predictive performance of the PPD, the latter prioritizes the utility of the posterior under model misspecification; these distinct objectives lead to different temperature preferences.

arxiv情報

著者 Kenyon Ng,Chris van der Heide,Liam Hodgkinson,Susan Wei
発行日 2025-06-11 16:25:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ME, stat.ML | コメントする

Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity

要約

Adamは、言語モデルをトレーニングするときにSGDを上回ります。
しかし、この利点は理論的には十分に理解されていません – AdamとSGDの以前の収束分析は、主にステップ$ t $の数に焦点を当てており、両方とも$ \ widetilde {o}(t^{-1/4})$です。
この作業では、素敵な$ \ ell_ \ infty $ geometryの搾取がSGDよりもAdamの重要な利点であると主張します。
より具体的には、ADAMの新しい収束分析を、より一般的な$ \ ELL_2 $ geometryではなく、損失が$ \ ell_ \ infty $ geometryの下でスムーズであるという新しい収束分析を提供します。
私たちの実験では、ADAMが好ましい$ \ ell_ \ infty $ geometryが変更された場合、SGDが影響を受けないようにすると、Adamがはるかに悪化することを確認しています。
また、収束分析を、新規のブロックワイズの滑らかさの仮定の下でブロックワイズアダムに拡張します。

要約(オリジナル)

Adam outperforms SGD when training language models. Yet this advantage is not well-understood theoretically — previous convergence analysis for Adam and SGD mainly focuses on the number of steps $T$ and is already minimax-optimal in non-convex cases, which are both $\widetilde{O}(T^{-1/4})$. In this work, we argue that the exploitation of nice $\ell_\infty$-geometry is the key advantage of Adam over SGD. More specifically, we give a new convergence analysis for Adam under novel assumptions that loss is smooth under $\ell_\infty$-geometry rather than the more common $\ell_2$-geometry, which yields a much better empirical smoothness constant for GPT-2 and ResNet models. Our experiments confirm that Adam performs much worse when the favorable $\ell_\infty$-geometry is changed while SGD provably remains unaffected. We also extend the convergence analysis to blockwise Adam under novel blockwise smoothness assumptions.

arxiv情報

著者 Shuo Xie,Mohamad Amin Mohamadi,Zhiyuan Li
発行日 2025-06-11 16:28:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Optimal Noise Reduction in Dense Mixed-Membership Stochastic Block Models under Diverging Spiked Eigenvalues Condition

要約

コミュニティの検出は、現代のネットワークサイエンスで最も重要な問題の1つです。
そのアプリケーションは、タンパク質モデリングからソーシャルネットワーク分析まで、さまざまな分野で見つけることができます。
最近、多くの論文が、ネットワークの各ノードがいくつかのコミュニティに属している可能性のあるコミュニティ検出の重複の問題を研究しているように見えました。
この作業では、Airoldi et al。
MMSBは、グラフの重複するコミュニティ構造をモデル化するための非常に一般的な設定を提供します。
この論文の中心的な問題は、観察されたネットワークを与えられたコミュニティ間の関係を再構築することです。
さまざまなアプローチを比較し、推定誤差でミニマックスの下限を確立します。
次に、この下限に一致する新しい推定器を提案します。
理論的結果は、考慮されたモデルのかなり一般的な条件下で証明されます。
最後に、一連の実験で理論を説明します。

要約(オリジナル)

Community detection is one of the most critical problems in modern network science. Its applications can be found in various fields, from protein modeling to social network analysis. Recently, many papers appeared studying the problem of overlapping community detection, where each node of a network may belong to several communities. In this work, we consider Mixed-Membership Stochastic Block Model (MMSB) first proposed by Airoldi et al. MMSB provides quite a general setting for modeling overlapping community structure in graphs. The central question of this paper is to reconstruct relations between communities given an observed network. We compare different approaches and establish the minimax lower bound on the estimation error. Then, we propose a new estimator that matches this lower bound. Theoretical results are proved under fairly general conditions on the considered model. Finally, we illustrate the theory in a series of experiments.

arxiv情報

著者 Fedor Noskov,Maxim Panov
発行日 2025-06-11 16:29:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SI, stat.ML | コメントする

Logits-Based Finetuning

要約

近年、コンパクトで効率的な大規模な言語モデル(LLMS)の開発は、研究の繁栄した分野として浮上しています。
特異なグラウンドトゥルースラベルに依存している従来の監視施設微調整(SFT)は、トークンレベルの依存関係と言語の多様性をキャプチャできないことがよくあります。
これらの制限に対処するために、監督された学習と知識の蒸留の強みを統合するロジットベースの微調整フレームワークを提案します。
私たちのアプローチは、教師のロジットと地上の真理ラベルを組み合わせて、正確性と言語の多様性の両方を維持することにより、豊富なトレーニングターゲットを構築します。
これにより、より信頼性の高い効果的なトレーニングが保証されます。
大規模な1.2mロジッツデータセットを構築し、一連のサイエンスに焦点を当てたモデルをトレーニングしました。
実験結果は、私たちの方法が大幅な改善を達成し、MAWPで18%、TABMWPで22.7%の精度が得られることを示しています。
広く使用されている9つの数学ベンチマークにまたがるこの方法は、以前のSFTモデルよりも一貫して優れており、平均改善が7.28%を達成しています。
コードはhttps://github.com/dvlab-research/logitsベースのフィネトゥニングで入手できます。

要約(オリジナル)

In recent years, developing compact and efficient large language models (LLMs) has emerged as a thriving area of research. Traditional Supervised Fine-Tuning (SFT), which relies on singular ground truth labels, often fails to capture token-level dependencies and linguistic diversity. To address these limitations, we propose a logits-based fine-tuning framework that integrates the strengths of supervised learning and knowledge distillation. Our approach constructs enriched training targets by combining teacher logits with ground truth labels, preserving both correctness and linguistic diversity. This ensures more reliable and effective training. We constructed a large-scale 1.2M logits dataset and trained a series of science-focused models. Experimental results demonstrate that our method achieves significant improvements, with accuracy gains of 18% on Mawps and 22.7% on TabMWP. Across nine widely used mathematical benchmarks, our method consistently outperforms prior SFT models, achieving an average improvement of 7.28%. Codes are available at https://github.com/dvlab-research/Logits-Based-Finetuning.

arxiv情報

著者 Jingyao Li,Senqiao Yang,Sitong Wu,Han Shi,Chuanyang Zheng,Hong Xu,Jiaya Jia
発行日 2025-06-11 16:40:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning

要約

Machine Ulearning(MU)は、トレーニングサンプルとトレーニングされたモデルへの影響を削除するリクエストに続いて、元のMLモデルをゼロから再トレーニングすることなく、機械学習(ML)モデルを更新することを目指しています。
MU自体はプライバシー保護と規制のコンプライアンスを提供するために採用されていますが、モデルの攻撃面を増やすこともできます。
未学習セットのプロパティを推測することを目的としたMUに対する既存のプライバシー推論攻撃は、攻撃者が非学習モデルと元のモデルの両方にアクセスできると仮定し、現実のシナリオへの実現可能性を制限していると仮定する弱い脅威モデルに依存しています。
新しいプライバシー攻撃を提案します。これは、敵が未学習モデルのラベル出力にアクセスできる厳格な脅威モデルに従って、データサンプルが学習されていないかどうかを推測するMU、Apolloに対する事後ラベルのメンバーシップ推論攻撃です。
提案された攻撃は、以前の攻撃と比較してターゲットモデルへのアクセスが少なくなりますが、非学習サンプルのメンバーシップステータスの比較的高い精度を達成できることを実証します。

要約(オリジナル)

Machine Unlearning (MU) aims to update Machine Learning (ML) models following requests to remove training samples and their influences on a trained model efficiently without retraining the original ML model from scratch. While MU itself has been employed to provide privacy protection and regulatory compliance, it can also increase the attack surface of the model. Existing privacy inference attacks towards MU that aim to infer properties of the unlearned set rely on the weaker threat model that assumes the attacker has access to both the unlearned model and the original model, limiting their feasibility toward real-life scenarios. We propose a novel privacy attack, A Posteriori Label-Only Membership Inference Attack towards MU, Apollo, that infers whether a data sample has been unlearned, following a strict threat model where an adversary has access to the label-output of the unlearned model only. We demonstrate that our proposed attack, while requiring less access to the target model compared to previous attacks, can achieve relatively high precision on the membership status of the unlearned samples.

arxiv情報

著者 Liou Tang,James Joshi,Ashish Kundu
発行日 2025-06-11 16:43:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Dynamic Diffusion Schrödinger Bridge in Astrophysical Observational Inversions

要約

動的な天体物理システムのコンテキストで拡散Schr \ ‘Odinger Bridge(DSB)モデルを研究し、星形成のための巨大な分子雲(GMC)内の観測逆予測タスクに特に取り組んでいます。
Astro-DSBモデルは、天体物理学的ダイナミクスに合わせて調整されたペアワイズドメインの仮定を持つDSBのバリアントを紹介します。
物理的にシミュレートされたデータと実際の観察(おうし座B213データ)の両方で、その学習プロセスと予測パフォーマンスを調査することにより、2つの主要なテイクアウトを提示します。
まず、天体物理学の観点から、提案されたペアのDSBメソッドは、従来の宇宙攻撃およびその他の機械学習方法よりも解釈可能性、学習効率、および予測パフォーマンスを改善します。
第二に、生成モデリングの観点から見ると、確率的生成モデリングは、目に見えない初期条件と異なる支配的な物理プロセスを伴う物理シミュレーションの分散分布(OOD)テストの識別ピクセル間モデリングの改善を明らかにします。
私たちの研究は、従来の視覚合成アプリケーションを超えて拡散モデルの研究を拡大し、純粋なデータ統計を超えたモデルの学習能力の証拠を提供し、機械学習と実際の(アストロ)物理システムの間でダイナミクスを整列させることができる将来の物理学を意識する生成モデルへの道を開いています。

要約(オリジナル)

We study Diffusion Schr\’odinger Bridge (DSB) models in the context of dynamical astrophysical systems, specifically tackling observational inverse prediction tasks within Giant Molecular Clouds (GMCs) for star formation. We introduce the Astro-DSB model, a variant of DSB with the pairwise domain assumption tailored for astrophysical dynamics. By investigating its learning process and prediction performance in both physically simulated data and in real observations (the Taurus B213 data), we present two main takeaways. First, from the astrophysical perspective, our proposed paired DSB method improves interpretability, learning efficiency, and prediction performance over conventional astrostatistical and other machine learning methods. Second, from the generative modeling perspective, probabilistic generative modeling reveals improvements over discriminative pixel-to-pixel modeling in Out-Of-Distribution (OOD) testing cases of physical simulations with unseen initial conditions and different dominant physical processes. Our study expands research into diffusion models beyond the traditional visual synthesis application and provides evidence of the models’ learning abilities beyond pure data statistics, paving a path for future physics-aware generative models which can align dynamics between machine learning and real (astro)physical systems.

arxiv情報

著者 Ye Zhu,Duo Xu,Zhiwei Deng,Jonathan C. Tan,Olga Russakovsky
発行日 2025-06-11 16:43:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.IM, cs.LG | コメントする