Low-Loss Space in Neural Networks is Continuous and Fully Connected

要約

ニューラルネットワークの損失景観の視覚化は、最小値が分離された点であることを示唆しています。
ただし、理論的および経験的研究の両方は、2つの異なる最小値を低い損失の中間点からなるパスと結びつけることが可能であることを示しています。
この研究では、2つの最小値だけでなく、完全なパラメーター空間の低下パスを調査する新しいアルゴリズムを提案します。
LENET5、RESNET18、およびコンパクトな畳み込みトランスアーキテクチャに関する実験は、パラメーター空間にそのような連続経路の存在を一貫して示しています。
これらの結果は、低損失領域がパラメーター空間内の完全に接続された連続空間であることを示唆しています。
私たちの調査結果は、ニューラルネットワークの過剰パラメーター化に関する理論的洞察を提供し、パラメーターが高次元低下スペースを集合的に定義することを強調しており、パラメーターの冗長性は個々のモデル内にのみ存在し、低損失スペース全体ではないことを意味します。
さらに、私たちの作業は、起源に近い低下スペースを探索することにより、モデルの一般化を改善するための新しい視覚化方法と機会も提供します。

要約(オリジナル)

Visualizations of the loss landscape in neural networks suggest that minima are isolated points. However, both theoretical and empirical studies indicate that it is possible to connect two different minima with a path consisting of intermediate points that also have low loss. In this study, we propose a new algorithm which investigates low-loss paths in the full parameter space, not only between two minima. Our experiments on LeNet5, ResNet18, and Compact Convolutional Transformer architectures consistently demonstrate the existence of such continuous paths in the parameter space. These results suggest that the low-loss region is a fully connected and continuous space in the parameter space. Our findings provide theoretical insight into neural network over-parameterization, highlighting that parameters collectively define a high-dimensional low-loss space, implying parameter redundancy exists only within individual models and not throughout the entire low-loss space. Additionally, our work also provides new visualization methods and opportunities to improve model generalization by exploring the low-loss space that is closer to the origin.

arxiv情報

著者 Yongding Tian,Zaid Al-Ars,Maksim Kitsak,Peter Hofstee
発行日 2025-05-05 12:16:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Low-Loss Space in Neural Networks is Continuous and Fully Connected はコメントを受け付けていません

A distance function for stochastic matrices

要約

情報ジオメトリに動機付けられているため、確率的マトリックスの空間上の距離関数が提唱されています。
マルコフチェーンのシーケンスから始めて、バタチャリヤの角度は、短期と長期のマルコフ連鎖の両方を比較するための自然なツールとして提唱されています。
距離の収束と混合時間の境界が導出されます。
特にヘルスケアプロセスの設定において、さまざまなマルコフ連鎖モデルを比較したいという欲求に導かれ、確率的マトリックスの空間での新しい距離関数が提示されます。
これは、閉じた形式を持ち、数値評価のために実装するのに効率的な真の距離測定です。
エルゴジックマルコフチェーンの場合、マルコフシーケンス上のバタチャリヤ角または新しい確率的マトリックス距離のいずれかを考慮すると、モデル間の距離が同じ距離につながることが示されています。

要約(オリジナル)

Motivated by information geometry, a distance function on the space of stochastic matrices is advocated. Starting with sequences of Markov chains the Bhattacharyya angle is advocated as the natural tool for comparing both short and long term Markov chain runs. Bounds on the convergence of the distance and mixing times are derived. Guided by the desire to compare different Markov chain models, especially in the setting of healthcare processes, a new distance function on the space of stochastic matrices is presented. It is a true distance measure which has a closed form and is efficient to implement for numerical evaluation. In the case of ergodic Markov chains, it is shown that considering either the Bhattacharyya angle on Markov sequences or the new stochastic matrix distance leads to the same distance between models.

arxiv情報

著者 Antony R. Lee,Peter Tino,Iain Bruce Styles
発行日 2025-05-05 12:21:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.PR | A distance function for stochastic matrices はコメントを受け付けていません

Lane-Wise Highway Anomaly Detection

要約

このペーパーでは、監視カメラから抽出されたマルチモーダル時系列データを活用して、車線ごとの高速道路交通の異常検出のためのスケーラブルで解釈可能なフレームワークを提案します。
従来のセンサー依存の方法とは異なり、このアプローチはAI搭載のビジョンモデルを使用して、高価なハードウェアや複雑な道路モデリングに依存することなく、車両数、占有率、トラックの割合などの車線固有の機能を抽出します。
73,139の車線ワイズサンプルを含む新しいデータセットを導入し、4つのクラスの専門分野の異常が注釈されています:3つのトラフィック関連の異常(車線の閉塞と回復、異物の侵入、および吸引詰まり)と1つのセンサー関連の異常(カメラ角のシフト)。
マルチブランチ検出システムは、堅牢性と精度を向上させるために、深い学習、ルールベースのロジック、および機械学習を統合します。
広範な実験は、私たちのフレームワークが精度、リコール、およびF1スコアの最先端の方法よりも優れていることを示しており、実際のインテリジェントな輸送システムに費用対効果の高いスケーラブルなソリューションを提供します。

要約(オリジナル)

This paper proposes a scalable and interpretable framework for lane-wise highway traffic anomaly detection, leveraging multi-modal time series data extracted from surveillance cameras. Unlike traditional sensor-dependent methods, our approach uses AI-powered vision models to extract lane-specific features, including vehicle count, occupancy, and truck percentage, without relying on costly hardware or complex road modeling. We introduce a novel dataset containing 73,139 lane-wise samples, annotated with four classes of expert-validated anomalies: three traffic-related anomalies (lane blockage and recovery, foreign object intrusion, and sustained congestion) and one sensor-related anomaly (camera angle shift). Our multi-branch detection system integrates deep learning, rule-based logic, and machine learning to improve robustness and precision. Extensive experiments demonstrate that our framework outperforms state-of-the-art methods in precision, recall, and F1-score, providing a cost-effective and scalable solution for real-world intelligent transportation systems.

arxiv情報

著者 Mei Qiu,William Lorenz Reindl,Yaobin Chen,Stanley Chien,Shu Hu
発行日 2025-05-05 12:32:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.IV | Lane-Wise Highway Anomaly Detection はコメントを受け付けていません

Entropic Mirror Descent for Linear Systems: Polyak’s Stepsize and Implicit Bias

要約

このホワイトペーパーでは、エントロピーミラー降下を適用して線形システムを解くことに焦点を当てています。線形システムは、収束分析の主な課題がドメインの縛られていないことに起因するものです。
制限的な仮定を課すことなくこれを克服するために、PolyAKタイプのステップサイズのバリアントを導入します。
途中で、$ \ ell_1 $ -Normの暗黙的バイアスの境界を強化し、サブリンと線形の収束結果を取得し、収束結果を任意の凸$ l $ -smooth関数に一般化します。
また、元のHadamard降下に似ていますが、証明可能な収束を伴う、指数を回避する代替方法も提案しています。

要約(オリジナル)

This paper focuses on applying entropic mirror descent to solve linear systems, where the main challenge for the convergence analysis stems from the unboundedness of the domain. To overcome this without imposing restrictive assumptions, we introduce a variant of Polyak-type stepsizes. Along the way, we strengthen the bound for $\ell_1$-norm implicit bias, obtain sublinear and linear convergence results, and generalize the convergence result to arbitrary convex $L$-smooth functions. We also propose an alternative method that avoids exponentiation, resembling the original Hadamard descent, but with provable convergence.

arxiv情報

著者 Yura Malitsky,Alexander Posch
発行日 2025-05-05 12:33:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 47J25, 90C30, cs.LG, math.OC, stat.ML | Entropic Mirror Descent for Linear Systems: Polyak’s Stepsize and Implicit Bias はコメントを受け付けていません

Mirror Mean-Field Langevin Dynamics

要約

平均フィールドランジュビンダイナミクス(MFLD)は、$ \ mathbb {r}^d $を超えるwasserstein空間で機能するエントロピー正規化された非線形凸を最小限に抑え、最近、無限層の2階層ネットワークなどの相互作用粒子システムの勾配降下ダイナミクスのモデルとして注目を集めています。
ただし、関心のある多くの問題にはドメインが制約されており、グローバルな拡散項による既存の平均フィールドアルゴリズムによって解決されません。
MFLDのMFLDのミラーランジュビンフレームワークへの拡張である\ emph {Mirror平均フィールドランゲビンダイナミクス}(MMFLD)を提案することにより、$ \ mathbb {r}^d $の凸サブセットに制約された確率測定の最適化を研究します。
均一な対数ソボレフの不平等を介して連続MMFLDの線形収束保証を取得し、その時間および粒子分散化された対応物のカオス結果の均一な伝播を取得します。

要約(オリジナル)

The mean-field Langevin dynamics (MFLD) minimizes an entropy-regularized nonlinear convex functional on the Wasserstein space over $\mathbb{R}^d$, and has gained attention recently as a model for the gradient descent dynamics of interacting particle systems such as infinite-width two-layer neural networks. However, many problems of interest have constrained domains, which are not solved by existing mean-field algorithms due to the global diffusion term. We study the optimization of probability measures constrained to a convex subset of $\mathbb{R}^d$ by proposing the \emph{mirror mean-field Langevin dynamics} (MMFLD), an extension of MFLD to the mirror Langevin framework. We obtain linear convergence guarantees for the continuous MMFLD via a uniform log-Sobolev inequality, and uniform-in-time propagation of chaos results for its time- and particle-discretized counterpart.

arxiv情報

著者 Anming Gu,Juno Kim
発行日 2025-05-05 12:49:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | Mirror Mean-Field Langevin Dynamics はコメントを受け付けていません

Aerodynamic and structural airfoil shape optimisation via Transfer Learning-enhanced Deep Reinforcement Learning

要約

このペーパーの主な目的は、併用空力および構造基準に基づいてエアフォイルのジオメトリを最適化できる転送学習強化、多目的、深い強化学習(DRL)方法論を導入することです。
この方法を紹介するために、最大厚さでモデル化されているように、翼の構造的完全性を維持しながら、リフトとドラッグの比率$ C_L/C_D $を最大化することを目指し、DRLエージェントを異なる転送学習(TL)戦略のリストを使用して訓練します。
DRLエージェントのパフォーマンスは、従来のグラデーションフリー最適化法である粒子群最適化(PSO)と比較されます。
結果は、DRLエージェントが多目的形状の最適化を実行できること、DRLアプローチが計算効率と形状最適化パフォーマンスの点でPSOを上回ること、およびTL強化DRLエージェントがDRL 1に匹敵するパフォーマンスを達成しながら、かなりの計算リソースをさらに節約することを示しています。

要約(オリジナル)

The main objective of this paper is to introduce a transfer learning-enhanced, multi-objective, deep reinforcement learning (DRL) methodology that is able to optimise the geometry of any airfoil based on concomitant aerodynamic and structural criteria. To showcase the method, we aim to maximise the lift-to-drag ratio $C_L/C_D$ while preserving the structural integrity of the airfoil — as modelled by its maximum thickness — and train the DRL agent using a list of different transfer learning (TL) strategies. The performance of the DRL agent is compared with Particle Swarm Optimisation (PSO), a traditional gradient-free optimisation method. Results indicate that DRL agents are able to perform multi-objective shape optimisation, that the DRL approach outperforms PSO in terms of computational efficiency and shape optimisation performance, and that the TL-enhanced DRL agent achieves performance comparable to the DRL one, while further saving substantial computational resources.

arxiv情報

著者 David Ramos,Lucas Lacasa,Eusebio Valero,Gonzalo Rubio
発行日 2025-05-05 13:26:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.comp-ph | Aerodynamic and structural airfoil shape optimisation via Transfer Learning-enhanced Deep Reinforcement Learning はコメントを受け付けていません

Energy-Efficient Flying LoRa Gateways: A Multi-Agent Reinforcement Learning Approach

要約

次世代のモノのインターネット(NG-OIT)ネットワークが増加し続けるにつれて、エネルギー需要とともに、接続されたデバイスの数が急速に増加しています。
これにより、リソース管理と持続可能性の課題が生まれます。
したがって、特に電力制限されたIoTデバイスのエネルギー効率の高い通信は、重要な研究焦点です。
このホワイトペーパーでは、無人航空機(UAV)に取り付けられたフライングロラゲートウェイを展開して、LORAエンドデバイスからデータを収集し、中央サーバーに送信しました。
私たちの主な目的は、送信電力、拡散係数、帯域幅、およびユーザーアソシエーションの共同最適化により、ワイヤレスLORAネットワークのグローバルシステムエネルギー効率を最大化することです。
この挑戦的な問題を解決するために、問題を部分的に観察可能なマルコフ決定プロセス(POMDP)としてモデル化します。そこでは、各飛行LORA GWは、協同組合マルチエージェント補強学習(MARL)を使用して学習エージェントとして機能します。
シミュレーション結果は、多因子近位ポリシー最適化アルゴリズムに基づいて提案された方法が、グローバルなシステムエネルギー効率を大幅に改善し、一般的なMARLおよびその他の従来のスキームを上回ることを示しています。

要約(オリジナル)

As next-generation Internet of Things (NG-IoT) networks continue to grow, the number of connected devices is rapidly increasing, along with their energy demands. This creates challenges for resource management and sustainability. Energy-efficient communication, particularly for power-limited IoT devices, is therefore a key research focus. In this paper, we deployed flying LoRa gateways mounted on unmanned aerial vehicles (UAVs) to collect data from LoRa end devices and transmit it to a central server. Our primary objective is to maximize the global system energy efficiency of wireless LoRa networks by joint optimization of transmission power, spreading factor, bandwidth, and user association. To solve this challenging problem, we model the problem as a partially observable Markov decision process (POMDP), where each flying LoRa GW acts as a learning agent using a cooperative multi-agent reinforcement learning (MARL). Simulation results demonstrate that our proposed method, based on the multi-agent proximal policy optimization algorithm, significantly improves the global system energy efficiency and surpasses the popular MARL and other conventional schemes.

arxiv情報

著者 Abdullahi Isa Ahmed,Jamal Bentahar,El Mehdi Amhoud
発行日 2025-05-05 13:46:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NI | Energy-Efficient Flying LoRa Gateways: A Multi-Agent Reinforcement Learning Approach はコメントを受け付けていません

PAC Learning is just Bipartite Matching (Sort of)

要約

この記事の主な目標は、おそらくほぼ正しい(PAC)モデルで監督された学習が、すべてのものと密接に関連していることを読者に納得させることです。
PAC学習からバイパルティットマッチングへの概要を説明します。学習の特定の導入モデルと関連する1つのインクルージョングラフを概説します。これは、レクリエーション数学で人気のある帽子パズルの一般化と見なすことができます。
このトランスダクトモデルは新しいものとはほど遠いものですが、最近、学習理論の深い疑問に取り組むためのツールとして関心の復活が見られました。
この記事の二次的な目的は、PACと学習のトランスダクティブモデルとの接続に関する(偏った)チュートリアルとして可能です。

要約(オリジナル)

The main goal of this article is to convince you, the reader, that supervised learning in the Probably Approximately Correct (PAC) model is closely related to — of all things — bipartite matching! En-route from PAC learning to bipartite matching, I will overview a particular transductive model of learning, and associated one-inclusion graphs, which can be viewed as a generalization of some of the hat puzzles that are popular in recreational mathematics. Whereas this transductive model is far from new, it has recently seen a resurgence of interest as a tool for tackling deep questions in learning theory. A secondary purpose of this article could be as a (biased) tutorial on the connections between the PAC and transductive models of learning.

arxiv情報

著者 Shaddin Dughmi
発行日 2025-05-05 13:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, F.0, stat.ML | PAC Learning is just Bipartite Matching (Sort of) はコメントを受け付けていません

GraphMaster: Automated Graph Synthesis via LLM Agents in Data-Limited Environments

要約

基礎モデルの時代はAIの研究に革命をもたらしましたが、グラフ基礎モデル(GFM)は大規模なグラフコーパスの希少性によって制約されたままです。
従来のグラフデータ統合技術は、主に単純な構造操作に焦点を当てており、意味のあるテキスト属性を持つセマンティックにリッチなノードを生成する能力を欠いています:実際のアプリケーションの重要な制限。
大規模な言語モデル(LLMS)は例外的なテキスト生成機能を示していますが、グラフ合成への直接的な適用は、コンテキストウィンドウの制限、幻覚現象、および構造的一貫性の課題によって妨げられます。
これらの問題に対処するために、データ制限環境でグラフデータ合成用に特別に設計された最初のマルチエージェントフレームワークであるGraphMasterを紹介します。
GraphMasterは、反復的な改良を通じて合成プロセスを共同で最適化する4つの専門LLMエージェント(マネージャー、認識、強化、および評価)を調整し、意味的な一貫性と構造的完全性の両方を確保します。
アプローチを厳密に評価するために、6つの標準グラフベンチマークの新しいデータ制限「サブ」バリアントを作成します。これは、現実的な制約の下で合成機能をテストするために特別に設計されています。
さらに、人間の評価と原則的な牧草地マニホールドベースの分析を組み合わせた新しい解釈可能性評価フレームワークを開発し、セマンティックコヒーレンスの定性的および定量的尺度の両方を提供します。
実験結果は、Graphmasterが複数のデータセットで従来の合成方法を大幅に上回り、データスカース環境でGFMを進めるための強力な基盤を確立することを示しています。

要約(オリジナル)

The era of foundation models has revolutionized AI research, yet Graph Foundation Models (GFMs) remain constrained by the scarcity of large-scale graph corpora. Traditional graph data synthesis techniques primarily focus on simplistic structural operations, lacking the capacity to generate semantically rich nodes with meaningful textual attributes: a critical limitation for real-world applications. While large language models (LLMs) demonstrate exceptional text generation capabilities, their direct application to graph synthesis is impeded by context window limitations, hallucination phenomena, and structural consistency challenges. To address these issues, we introduce GraphMaster, the first multi-agent framework specifically designed for graph data synthesis in data-limited environments. GraphMaster orchestrates four specialized LLM agents (Manager, Perception, Enhancement, and Evaluation) that collaboratively optimize the synthesis process through iterative refinement, ensuring both semantic coherence and structural integrity. To rigorously evaluate our approach, we create new data-limited ‘Sub’ variants of six standard graph benchmarks, specifically designed to test synthesis capabilities under realistic constraints. Additionally, we develop a novel interpretability assessment framework that combines human evaluation with a principled Grassmannian manifold-based analysis, providing both qualitative and quantitative measures of semantic coherence. Experimental results demonstrate that GraphMaster significantly outperforms traditional synthesis methods across multiple datasets, establishing a strong foundation for advancing GFMs in data-scarce environments.

arxiv情報

著者 Enjun Du,Xunkai Li,Tian Jin,Zhihan Zhang,Rong-Hua Li,Guoren Wang
発行日 2025-05-05 13:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | GraphMaster: Automated Graph Synthesis via LLM Agents in Data-Limited Environments はコメントを受け付けていません

Joint-Embedding Masked Autoencoder for Self-supervised Learning of Dynamic Functional Connectivity from the Human Brain

要約

グラフニューラルネットワーク(GNNS)は、表現型を人間の脳ネットワークと区別するための動的な機能的接続性を学習することに有望を示しています。
ただし、トレーニングのために広範なラベル付けされた臨床データを取得することは、多くの場合、リソース集約的であり、実用的なアプリケーションを困難にしています。
したがって、ラベルのないデータをレバレッジすることは、ラベルスカース設定での表現学習に重要になります。
生成的な自己監視学習技術、特にマスクされた自動エンコーダーは、さまざまなドメインでの表現学習において有望な結果を示していますが、動的な機能的接続の動的グラフへの適用は、高レベルのセマンティック表現をキャプチャする際の課題に直面している依然として未熟に依存しています。
ここでは、コンピュータービジョンにジョイント埋め込み予測アーキテクチャ(JEPA)からインスピレーションを得て、時空間関節埋め込みマスクされた自動エンコーダー(ST-JEMA)を紹介します。
ST-JEMAは、JEPAに触発された動的グラフを再構築するための戦略を採用しています。これにより、時間的視点を考慮した高レベルのセマンティック表現の学習が可能になり、fMRIデータ表現学習の課題に対処します。
自己監視学習のための大規模な英国のバイオバンクデータセットを利用して、ST-JEMAは、8つのベンチマークFMRIデータセットにわたって表現型と精神診断を予測する際の以前の方法よりも優位性を示す動的な機能的接続性に関する例外的な表現パフォーマンスを示しています。
これらの調査結果は、ラベルサースFMRIデータを活用するための堅牢な表現学習方法としてのアプローチの可能性を強調しています。

要約(オリジナル)

Graph Neural Networks (GNNs) have shown promise in learning dynamic functional connectivity for distinguishing phenotypes from human brain networks. However, obtaining extensive labeled clinical data for training is often resource-intensive, making practical application difficult. Leveraging unlabeled data thus becomes crucial for representation learning in a label-scarce setting. Although generative self-supervised learning techniques, especially masked autoencoders, have shown promising results in representation learning in various domains, their application to dynamic graphs for dynamic functional connectivity remains underexplored, facing challenges in capturing high-level semantic representations. Here, we introduce the Spatio-Temporal Joint Embedding Masked Autoencoder (ST-JEMA), drawing inspiration from the Joint Embedding Predictive Architecture (JEPA) in computer vision. ST-JEMA employs a JEPA-inspired strategy for reconstructing dynamic graphs, which enables the learning of higher-level semantic representations considering temporal perspectives, addressing the challenges in fMRI data representation learning. Utilizing the large-scale UK Biobank dataset for self-supervised learning, ST-JEMA shows exceptional representation learning performance on dynamic functional connectivity demonstrating superiority over previous methods in predicting phenotypes and psychiatric diagnoses across eight benchmark fMRI datasets even with limited samples and effectiveness of temporal reconstruction on missing data scenarios. These findings highlight the potential of our approach as a robust representation learning method for leveraging label-scarce fMRI data.

arxiv情報

著者 Jungwon Choi,Hyungi Lee,Byung-Hoon Kim,Juho Lee
発行日 2025-05-05 14:29:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC | Joint-Embedding Masked Autoencoder for Self-supervised Learning of Dynamic Functional Connectivity from the Human Brain はコメントを受け付けていません