Optimization-Free Diffusion Model — A Perturbation Theory Approach

要約

拡散モデルは、生成モデリングの強力なフレームワークとして浮上しており、通常、ニューラルネットワークを最適化してフォワードSDEシミュレーションを介してスコア関数を推定することに依存しています。
この作業では、最適化なしでフォワードフリーの両方の代替方法を提案します。
スコア関数を拡散プロセスに関連する後方コルモゴロフ演算子の固有ベシスのまばらなセットで拡大することにより、スコア推定を線形システムの解として再定式化し、反復的最適化と時間依存サンプル生成を回避します。
摂動理論を使用して近似誤差を分析し、高次元のボルツマン分布と実際のデータセットに対する方法の有効性を実証します。

要約(オリジナル)

Diffusion models have emerged as a powerful framework in generative modeling, typically relying on optimizing neural networks to estimate the score function via forward SDE simulations. In this work, we propose an alternative method that is both optimization-free and forward SDE-free. By expanding the score function in a sparse set of eigenbasis of the backward Kolmogorov operator associated with the diffusion process, we reformulate score estimation as the solution to a linear system, avoiding iterative optimization and time-dependent sample generation. We analyze the approximation error using perturbation theory and demonstrate the effectiveness of our method on high-dimensional Boltzmann distributions and real-world datasets.

arxiv情報

著者 Yuehaw Khoo,Mathias Oster,Yifan Peng
発行日 2025-05-29 17:02:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA | Optimization-Free Diffusion Model — A Perturbation Theory Approach はコメントを受け付けていません

How does Transformer Learn Implicit Reasoning?

要約

最近の研究では、大規模な言語モデル(LLM)が暗黙的にマルチホップの推論を実行できることを示唆しています – 明示的に中間ステップを口頭で言語化することなく正解を生成する – しかし、基礎となるメカニズムはよく理解されたままです。
この論文では、制御された象徴的な環境でゼロから変圧器を訓練することによって、そのような暗黙の推論がどのように現れるかを研究します。
私たちの分析では、3段階の発達軌跡が明らかになりました:早期の暗記に続いて、分配内の一般化、そして最終的には相互分布の一般化です。
アトミックトリプルでのトレーニングは必要ではありませんが、学習を加速し、セカンドホップの一般化は特定の組成構造へのクエリレベルの露出に依存していることがわかります。
これらの動作を解釈するために、2つの診断ツールを紹介します。これは、意味的に再利用可能な中間表現を識別するクロスクロスセマンティックパッチングと、コサインベースの表現レンズを識別します。
このクラスタリング現象は、トレーニング全体で観察された行動ダイナミクスのコヒーレントな説明を提供し、表現構造を推論能力にリンクします。
これらの調査結果は、LLMSにおける暗黙のマルチホップ推論の解釈可能性に関する新しい洞察を提供し、複雑な推論プロセスが内部的に展開する方法を明確にし、そのようなモデルの透明性を高めるための経路を提供するのに役立ちます。

要約(オリジナル)

Recent work suggests that large language models (LLMs) can perform multi-hop reasoning implicitly — producing correct answers without explicitly verbalizing intermediate steps — but the underlying mechanisms remain poorly understood. In this paper, we study how such implicit reasoning emerges by training transformers from scratch in a controlled symbolic environment. Our analysis reveals a three-stage developmental trajectory: early memorization, followed by in-distribution generalization, and eventually cross-distribution generalization. We find that training with atomic triples is not necessary but accelerates learning, and that second-hop generalization relies on query-level exposure to specific compositional structures. To interpret these behaviors, we introduce two diagnostic tools: cross-query semantic patching, which identifies semantically reusable intermediate representations, and a cosine-based representational lens, which reveals that successful reasoning correlates with the cosine-base clustering in hidden space. This clustering phenomenon in turn provides a coherent explanation for the behavioral dynamics observed across training, linking representational structure to reasoning capability. These findings provide new insights into the interpretability of implicit multi-hop reasoning in LLMs, helping to clarify how complex reasoning processes unfold internally and offering pathways to enhance the transparency of such models.

arxiv情報

著者 Jiaran Ye,Zijun Yao,Zhidian Huang,Liangming Pan,Jinxin Liu,Yushi Bai,Amy Xin,Liu Weichuan,Xiaoyin Che,Lei Hou,Juanzi Li
発行日 2025-05-29 17:02:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | How does Transformer Learn Implicit Reasoning? はコメントを受け付けていません

Bayesian Perspective on Memorization and Reconstruction

要約

データの再構築の概念に関する新しいベイジアンの視点を紹介し、この視点を活用して、特定の設定で再構成攻撃を証明する新しいセキュリティ定義を提案します。
私たちはパラダイムを使用して、プライバシーと記憶の文献で最も悪名高い攻撃の1つであるフィンガープリントコード攻撃(FPC)に新しい光を当てました。
これらの攻撃は、再建攻撃ではなく、実際にはメンバーシップ推論攻撃の一形態であると主張します。
さらに、目標が再構成のみを防ぐため(メンバーシップの推論ではない)場合、場合によってはFPCから派生した不可能な結果がもはや適用されなくなったことを示します。

要約(オリジナル)

We introduce a new Bayesian perspective on the concept of data reconstruction, and leverage this viewpoint to propose a new security definition that, in certain settings, provably prevents reconstruction attacks. We use our paradigm to shed new light on one of the most notorious attacks in the privacy and memorization literature – fingerprinting code attacks (FPC). We argue that these attacks are really a form of membership inference attacks, rather than reconstruction attacks. Furthermore, we show that if the goal is solely to prevent reconstruction (but not membership inference), then in some cases the impossibility results derived from FPC no longer apply.

arxiv情報

著者 Haim Kaplan,Yishay Mansour,Kobbi Nissim,Uri Stemmer
発行日 2025-05-29 17:08:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Bayesian Perspective on Memorization and Reconstruction はコメントを受け付けていません

AMBER: Adaptive Mesh Generation by Iterative Mesh Resolution Prediction

要約

基礎となるメッシュの解像度で有限要素法(FEM)スケールを使用して、複雑な物理システムをシミュレートするコストと精度。
適応型メッシュは、重要な地域の解像度を改善することにより計算効率を改善しますが、通常、タスク固有のヒューリスティックまたは人間の専門家による面倒な手動設計が必要です。
メッシュの適応に対する監視された学習アプローチである専門家の再構成(AMBER)による適応メッシュを提案します。
粗いメッシュから始めて、Amberはサイジングフィールド、つまりターゲットメッシュのジオメトリからローカル要素サイズへの関数マッピングを繰り返し予測し、この予測を使用して、ボックス外のメッシュジェネレーターを使用して新しい中間メッシュを生成します。
このプロセスは、階層グラフニューラルネットワークを通じて有効になり、トレーニング中にアンバー生成データに専門家のラベルを自動的に投影することにより、データ増強に依存しています。
古典的な物理学の問題、機械的コンポーネント、人間の専門家メッシュを使用した現実世界の工業デザインなど、2Dおよび3DデータセットでAMBERを評価します。
Amberは、目に見えない幾何学に一般化し、グラフと畳み込みのニューラルネットワークを使用したものや補強学習ベースのアプローチを含む、最近の複数のベースラインよりも一貫して優れています。

要約(オリジナル)

The cost and accuracy of simulating complex physical systems using the Finite Element Method (FEM) scales with the resolution of the underlying mesh. Adaptive meshes improve computational efficiency by refining resolution in critical regions, but typically require task-specific heuristics or cumbersome manual design by a human expert. We propose Adaptive Meshing By Expert Reconstruction (AMBER), a supervised learning approach to mesh adaptation. Starting from a coarse mesh, AMBER iteratively predicts the sizing field, i.e., a function mapping from the geometry to the local element size of the target mesh, and uses this prediction to produce a new intermediate mesh using an out-of-the-box mesh generator. This process is enabled through a hierarchical graph neural network, and relies on data augmentation by automatically projecting expert labels onto AMBER-generated data during training. We evaluate AMBER on 2D and 3D datasets, including classical physics problems, mechanical components, and real-world industrial designs with human expert meshes. AMBER generalizes to unseen geometries and consistently outperforms multiple recent baselines, including ones using Graph and Convolutional Neural Networks, and Reinforcement Learning-based approaches.

arxiv情報

著者 Niklas Freymuth,Tobias Würth,Nicolas Schreiber,Balazs Gyenes,Andreas Boltres,Johannes Mitsch,Aleksandar Taranovic,Tai Hoang,Philipp Dahlinger,Philipp Becker,Luise Kärger,Gerhard Neumann
発行日 2025-05-29 17:10:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.LG | AMBER: Adaptive Mesh Generation by Iterative Mesh Resolution Prediction はコメントを受け付けていません

Bayesian Optimization from Human Feedback: Near-Optimal Regret Bounds

要約

優先順位ベースのフィードバックを備えたBayesian Optimization(BO)は、最近、新たなアプリケーションのために大きな注目を集めています。
この問題は、人間のフィードバック(BOHF)からのベイジアンの最適化と呼ばれます。これは、削減されたフィードバックモデルから最良のアクションを学習することで従来のBOとは異なります。ここでは、2つのアクション間の優先順位のみが各時間ステップで学習者に明らかになります。
目的は、通常、費用のかかる人間のフィードバックを通じて得られる限られた数の優先クエリを使用して、最良のアクションを特定することです。
Bradley-Terry-Luce(BTL)フィードバックモデルを採用する既存の作業は、いくつかのアルゴリズムのパフォーマンスの後悔の範囲を提供します。
この作業では、同じフレームワーク内で、パフォーマンス保証をより強く開発します。
具体的には、$ \ tilde {\ mathcal {o}}(\ sqrt {\ gamma(t)t})$の後悔の境界線を導き出します。ここで、$ \ gamma(t)$は最大情報ゲイン$ \ unicode {x2014}
クエリ。
私たちの結果は、既存の境界を大幅に改善します。
特に、一般的なカーネルの場合、より豊富なフィードバックモデルで達成された従来のBO $ \ Unicode {x2014} $の注文最適なサンプルの複雑さは$ \ unicode {x2014} $が回収されることを示します。
言い換えれば、スカラー値サンプルと同じ数の優先サンプルでは、​​ほぼ最適なソリューションを見つけるのに十分です。

要約(オリジナル)

Bayesian optimization (BO) with preference-based feedback has recently garnered significant attention due to its emerging applications. We refer to this problem as Bayesian Optimization from Human Feedback (BOHF), which differs from conventional BO by learning the best actions from a reduced feedback model, where only the preference between two actions is revealed to the learner at each time step. The objective is to identify the best action using a limited number of preference queries, typically obtained through costly human feedback. Existing work, which adopts the Bradley-Terry-Luce (BTL) feedback model, provides regret bounds for the performance of several algorithms. In this work, within the same framework we develop tighter performance guarantees. Specifically, we derive regret bounds of $\tilde{\mathcal{O}}(\sqrt{\Gamma(T)T})$, where $\Gamma(T)$ represents the maximum information gain$\unicode{x2014}$a kernel-specific complexity term$\unicode{x2014}$and $T$ is the number of queries. Our results significantly improve upon existing bounds. Notably, for common kernels, we show that the order-optimal sample complexities of conventional BO$\unicode{x2014}$achieved with richer feedback models$\unicode{x2014}$are recovered. In other words, the same number of preferential samples as scalar-valued samples is sufficient to find a nearly optimal solution.

arxiv情報

著者 Aya Kayal,Sattar Vakili,Laura Toni,Da-shan Shiu,Alberto Bernacchia
発行日 2025-05-29 17:17:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Bayesian Optimization from Human Feedback: Near-Optimal Regret Bounds はコメントを受け付けていません

Understanding Mode Connectivity via Parameter Space Symmetry

要約

ニューラルネットワークの最小値は、列車とテストの損失がほぼ一定のままである曲線によって接続されていることがよくあり、モード接続として知られる現象です。
このプロパティでは、モデルのマージや微調整などのアプリケーションが有効になっていますが、その理論的説明は不明のままです。
パラメーター空間対称性を使用して、最小値のつながりを調査するための新しいアプローチを提案します。
対称グループのトポロジーを最小値のトポロジーにリンクすることにより、線形ネットワークの最小値の接続コンポーネントの数を導き出し、スキップ接続がこの数を減らすことを示します。
次に、最小値のかなりの部分を説明するパラメーター対称性を使用して、モード接続と線形モードの接続性を保持または故障させる時期を調べます。
最後に、対称性によって誘導される最小値で曲線を接続するための明示的な式を提供します。
これらの曲線の曲率を使用して、線形モードの接続性がほぼ保持される条件を導き出します。
私たちの調査結果は、ニューラルネットワーク損失の状況を理解する上での連続対称性の役割を強調しています。

要約(オリジナル)

Neural network minima are often connected by curves along which train and test loss remain nearly constant, a phenomenon known as mode connectivity. While this property has enabled applications such as model merging and fine-tuning, its theoretical explanation remains unclear. We propose a new approach to exploring the connectedness of minima using parameter space symmetry. By linking the topology of symmetry groups to that of the minima, we derive the number of connected components of the minima of linear networks and show that skip connections reduce this number. We then examine when mode connectivity and linear mode connectivity hold or fail, using parameter symmetries which account for a significant part of the minimum. Finally, we provide explicit expressions for connecting curves in the minima induced by symmetry. Using the curvature of these curves, we derive conditions under which linear mode connectivity approximately holds. Our findings highlight the role of continuous symmetries in understanding the neural network loss landscape.

arxiv情報

著者 Bo Zhao,Nima Dehmamy,Robin Walters,Rose Yu
発行日 2025-05-29 17:20:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Understanding Mode Connectivity via Parameter Space Symmetry はコメントを受け付けていません

Learning Compositional Functions with Transformers from Easy-to-Hard Data

要約

トランスベースの言語モデルは、さまざまな複雑な推論タスクにわたって印象的な機能を実証しています。
トランスの表現力を調査する以前の理論的研究により、並列化可能な計算を含むマルチステップ推論タスクを効率的に実行できることが示されています。
ただし、そのような構造の学習性、特に勾配ベースの最適化を介して効率的な学習を可能にするデータ分布の条件は、未解決の問題のままです。
この質問への回答に向けて、この作業では、$ k $ fold構成タスクの学習性を研究します。これは、$ k $入力順列と$ k $の隠された順列のインターリーブ組成を計算する必要があり、$ o(\ log k)$レイヤーの変圧器で表現できます。
負の面では、$ k $ -foldコンポジションタスク分布のためにSQ Oracleに多項式的に多くのクエリのみを作成するSQ学習者は、$ K $でサンプルサイズを指数関数的に行う必要があることを示す統計クエリ(SQ)の下限を証明します。
On the other hand, we show that this function class can be efficiently learned, with runtime and sample complexity polynomial in $k$, by gradient descent on an $O(\log k)$-depth transformer via two different curriculum learning strategies: one in which data consists of $k’$-fold composition functions with $k’ \le k$ presented in increasing difficulty, and another in which all such data is presented simultaneously.
私たちの作品は、複雑な組成タスクを学習するためのトランスのデータ分布に簡単な例と困難な例の両方を持っていることの必要性と十分性に光を当てています。

要約(オリジナル)

Transformer-based language models have demonstrated impressive capabilities across a range of complex reasoning tasks. Prior theoretical work exploring the expressive power of transformers has shown that they can efficiently perform multi-step reasoning tasks involving parallelizable computations. However, the learnability of such constructions, particularly the conditions on the data distribution that enable efficient learning via gradient-based optimization, remains an open question. Towards answering this question, in this work we study the learnability of the $k$-fold composition task, which requires computing an interleaved composition of $k$ input permutations and $k$ hidden permutations, and can be expressed by a transformer with $O(\log k)$ layers. On the negative front, we prove a Statistical Query (SQ) lower bound showing that any SQ learner that makes only polynomially-many queries to an SQ oracle for the $k$-fold composition task distribution must have sample size exponential in $k$, thus establishing a statistical-computational gap. On the other hand, we show that this function class can be efficiently learned, with runtime and sample complexity polynomial in $k$, by gradient descent on an $O(\log k)$-depth transformer via two different curriculum learning strategies: one in which data consists of $k’$-fold composition functions with $k’ \le k$ presented in increasing difficulty, and another in which all such data is presented simultaneously. Our work sheds light on the necessity and sufficiency of having both easy and hard examples in the data distribution for transformers to learn complex compositional tasks.

arxiv情報

著者 Zixuan Wang,Eshaan Nichani,Alberto Bietti,Alex Damian,Daniel Hsu,Jason D. Lee,Denny Wu
発行日 2025-05-29 17:22:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Learning Compositional Functions with Transformers from Easy-to-Hard Data はコメントを受け付けていません

From Individual Experience to Collective Evidence: A Reporting-Based Framework for Identifying Systemic Harms

要約

個人が何らかのシステムとの否定的な相互作用を報告する場合、システムの動作のより広いパターンで個人的な経験をどのように文脈化することができますか?
有害事象の個々の報告が連続して到着し、時間とともに集計されている報告データベースの問題を研究します。
この作業では、私たちの目標は、関連する機能の任意の組み合わせによって定義されているサブグループがあるかどうかを特定することです。つまり、システムとの有害な相互作用を経験する可能性があります。
この問題を連続的な仮説テストとして正式にし、サブグループ全体で真の危害率の格差について推論するのに十分な報告行動に関する条件を特定します。
標準的な複数のテスト補正で、この問題に連続的な仮説テストのアルゴリズムを適用できることを示します。
次に、住宅ローンの決定やワクチンの副作用など、実際のデータセットに関する方法を実証します。
それぞれで、私たちの方法は、それらを発見するために最初に使用されたデータのほんの一部のみを使用して、不均衡な害を経験することが知られているサブグループを識別します。

要約(オリジナル)

When an individual reports a negative interaction with some system, how can their personal experience be contextualized within broader patterns of system behavior? We study the reporting database problem, where individual reports of adverse events arrive sequentially, and are aggregated over time. In this work, our goal is to identify whether there are subgroups–defined by any combination of relevant features–that are disproportionately likely to experience harmful interactions with the system. We formalize this problem as a sequential hypothesis test, and identify conditions on reporting behavior that are sufficient for making inferences about disparities in true rates of harm across subgroups. We show that algorithms for sequential hypothesis tests can be applied to this problem with a standard multiple testing correction. We then demonstrate our method on real-world datasets, including mortgage decisions and vaccine side effects; on each, our method (re-)identifies subgroups known to experience disproportionate harm using only a fraction of the data that was initially used to discover them.

arxiv情報

著者 Jessica Dai,Paula Gradu,Inioluwa Deborah Raji,Benjamin Recht
発行日 2025-05-29 17:30:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG | From Individual Experience to Collective Evidence: A Reporting-Based Framework for Identifying Systemic Harms はコメントを受け付けていません

On the Training Convergence of Transformers for In-Context Classification of Gaussian Mixtures

要約

トランスは、実際にはコンテキスト学習(ICL)の印象的な能力を実証していますが、トランスがICLを実行できるようにする基礎となるメカニズムの理論的理解はまだ初期段階です。
この作業は、コンテキスト内分類タスクのためのトランスのトレーニングダイナミクスを理論的に研究することを目的としています。
特定の仮定の下でガウス混合物のコンテキスト内分類のために、勾配降下を介して訓練された単一層変圧器が線形速度でグローバルに最適なモデルに収束することを実証します。
さらに、トレーニングされた変圧器のICL推論エラーに対するトレーニングとテストプロンプトの長さの影響を定量化します。
トレーニングとテストプロンプトの長さが十分に大きい場合、訓練されたトランスの予測がラベルのグラウンドトゥルース分布に近づくことを示します。
実験結果は、理論的発見を裏付けています。

要約(オリジナル)

Although transformers have demonstrated impressive capabilities for in-context learning (ICL) in practice, theoretical understanding of the underlying mechanism that allows transformers to perform ICL is still in its infancy. This work aims to theoretically study the training dynamics of transformers for in-context classification tasks. We demonstrate that, for in-context classification of Gaussian mixtures under certain assumptions, a single-layer transformer trained via gradient descent converges to a globally optimal model at a linear rate. We further quantify the impact of the training and testing prompt lengths on the ICL inference error of the trained transformer. We show that when the lengths of training and testing prompts are sufficiently large, the prediction of the trained transformer approaches the ground truth distribution of the labels. Experimental results corroborate the theoretical findings.

arxiv情報

著者 Wei Shen,Ruida Zhou,Jing Yang,Cong Shen
発行日 2025-05-29 17:32:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML | On the Training Convergence of Transformers for In-Context Classification of Gaussian Mixtures はコメントを受け付けていません

Computational Algebra with Attention: Transformer Oracles for Border Basis Algorithms

要約

多項式方程式のシステム、特に有限のソリューションのシステムを解くことは、多くの科学分野で重要な課題です。
Gr \ ‘ObnerやBorder Baseなどの従来の方法は基本的ですが、出力の正確性を犠牲にしても、効率を改善するための最近の深い学習アプローチを動機付けている計算コストが高くなります。
この作業では、出力保証を維持しながら境界基底の計算を加速する最初の深い学習アプローチであるOracle Border Basic Basic Algorithmを紹介します。
このため、アルゴリズムのランタイムを支配するために、計算上の高価な削減ステップを識別および排除するトランスベースのオラクルを設計および訓練します。
計算の重要な段階でこのオラクルを選択的に呼び出すことにより、結果の正確性を損なうことなく、ベースアルゴリズムと比較して最大3.5倍の実質的なスピードアップ係数を達成します。
トレーニングデータを生成するために、サンプリング方法を開発し、境界ベースの最初のサンプリング定理を提供します。
モノミアル中心の代数計算に合わせて調整されたトークン化と埋め込みスキームを構築し、コンパクトで表現力のある入力表現をもたらし、トークンの数を減らして$ n $ variate多項式を$ o(n)$の係数でエンコードします。
私たちの学習アプローチは、データ効率が高く、安定しており、従来のコンピューター代数アルゴリズムとシンボリック計算の実用的な強化です。

要約(オリジナル)

Solving systems of polynomial equations, particularly those with finitely many solutions, is a crucial challenge across many scientific fields. Traditional methods like Gr\’obner and Border bases are fundamental but suffer from high computational costs, which have motivated recent Deep Learning approaches to improve efficiency, albeit at the expense of output correctness. In this work, we introduce the Oracle Border Basis Algorithm, the first Deep Learning approach that accelerates Border basis computation while maintaining output guarantees. To this end, we design and train a Transformer-based oracle that identifies and eliminates computationally expensive reduction steps, which we find to dominate the algorithm’s runtime. By selectively invoking this oracle during critical phases of computation, we achieve substantial speedup factors of up to 3.5x compared to the base algorithm, without compromising the correctness of results. To generate the training data, we develop a sampling method and provide the first sampling theorem for border bases. We construct a tokenization and embedding scheme tailored to monomial-centered algebraic computations, resulting in a compact and expressive input representation, which reduces the number of tokens to encode an $n$-variate polynomial by a factor of $O(n)$. Our learning approach is data efficient, stable, and a practical enhancement to traditional computer algebra algorithms and symbolic computation.

arxiv情報

著者 Hiroshi Kera,Nico Pelleriti,Yuki Ishihara,Max Zimmer,Sebastian Pokutta
発行日 2025-05-29 17:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SC | Computational Algebra with Attention: Transformer Oracles for Border Basis Algorithms はコメントを受け付けていません