Boosting-inspired online learning with transfer for railway maintenance

要約

Advanced Sensor TechnologiesとDeep Learning Algorithmsの統合により、鉄道システム、特にホイールトラックインターフェイスでの障害診断に革命が発生しました。
ホイールアウトオブラウンド性などの不規則性を検出するために多数のモデルが提案されていますが、鉄道作業の動的で非定常性の性質により、実際のアプリケーションでは不足していることがよくあります。
このペーパーでは、予測メンテナンスのために継続的な学習を使用してこれらの課題に対処するように設計されたモデルである、Bolt-RM(鉄道メンテナンスのための転送を伴うブーストにインスパイアされたオンライン学習)を紹介します。
モデルが新しいデータが利用可能になるにつれて継続的に学習し、適応できるようにすることにより、ボルト-RMは、従来のモデルをしばしば悩ませる壊滅的な忘却の問題を克服します。
過去の知識を保持しながら、新しい学習エピソードごとに予測精度を向上させ、ブーストのような知識共有メカニズムを使用して、速度、負荷、追跡の不規則性の変化などの進化する運用条件に適応します。
この方法論は、現実的な鉄道動作条件をキャプチャする列車トラックの動的相互作用の包括的なマルチドメインシミュレーションを通じて検証されます。
提案されているBOLT-RMモデルは、ホイールの異常の識別において大幅な改善を示し、維持介入のための信頼できるシーケンスを確立します。

要約(オリジナル)

The integration of advanced sensor technologies with deep learning algorithms has revolutionized fault diagnosis in railway systems, particularly at the wheel-track interface. Although numerous models have been proposed to detect irregularities such as wheel out-of-roundness, they often fall short in real-world applications due to the dynamic and nonstationary nature of railway operations. This paper introduces BOLT-RM (Boosting-inspired Online Learning with Transfer for Railway Maintenance), a model designed to address these challenges using continual learning for predictive maintenance. By allowing the model to continuously learn and adapt as new data become available, BOLT-RM overcomes the issue of catastrophic forgetting that often plagues traditional models. It retains past knowledge while improving predictive accuracy with each new learning episode, using a boosting-like knowledge sharing mechanism to adapt to evolving operational conditions such as changes in speed, load, and track irregularities. The methodology is validated through comprehensive multi-domain simulations of train-track dynamic interactions, which capture realistic railway operating conditions. The proposed BOLT-RM model demonstrates significant improvements in identifying wheel anomalies, establishing a reliable sequence for maintenance interventions.

arxiv情報

著者 Diogo Risca,Afonso Lourenço,Goreti Marreiros
発行日 2025-04-11 14:03:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Boosting-inspired online learning with transfer for railway maintenance はコメントを受け付けていません

Deep Joint Distribution Optimal Transport for Universal Domain Adaptation on Time Series

要約

ユニバーサルドメイン適応(UNIDA)は、クラスが完全に共有されていない場合でも、知識をラベル付けされたソースドメインから非標識ターゲットドメインに転送することを目指しています。
時系列(TS)には専用のユニダの方法はほとんど存在しません。これは困難なケースのままです。
一般に、Unidaアプローチは一般的なクラスサンプルを調整し、新しいクラスから未知のターゲットサンプルを検出します。
このような検出は、多くの場合、識別性メトリックをしきい値化することに起因します。
しきい値は通常、微調整されたハイパーパラメーターまたは固定値のいずれかであり、モデルが新しいデータに適応する能力を制限します。
さらに、識別性メトリックは、未知のサンプルに自信過剰を示し、誤分類につながります。
このペーパーでは、輸送コストの未知のターゲットサンプルを説明する最適な輸送ベースの方法であるUnijdotを紹介します。
また、私たちの方法では、検出モジュールの識別性を改善するための共同決定スペースも提案しています。
さらに、自動授与アルゴリズムを使用して、固定または微調整されたしきい値への依存を減らします。
最後に、より良いTS表現のために、フーリエ神経演算子に触発されたフーリエ変換ベースの層に依存しています。
TSベンチマークでの実験は、Unijdotの識別性、堅牢性、および最先端のパフォーマンスを示しています。

要約(オリジナル)

Universal Domain Adaptation (UniDA) aims to transfer knowledge from a labeled source domain to an unlabeled target domain, even when their classes are not fully shared. Few dedicated UniDA methods exist for Time Series (TS), which remains a challenging case. In general, UniDA approaches align common class samples and detect unknown target samples from emerging classes. Such detection often results from thresholding a discriminability metric. The threshold value is typically either a fine-tuned hyperparameter or a fixed value, which limits the ability of the model to adapt to new data. Furthermore, discriminability metrics exhibit overconfidence for unknown samples, leading to misclassifications. This paper introduces UniJDOT, an optimal-transport-based method that accounts for the unknown target samples in the transport cost. Our method also proposes a joint decision space to improve the discriminability of the detection module. In addition, we use an auto-thresholding algorithm to reduce the dependence on fixed or fine-tuned thresholds. Finally, we rely on a Fourier transform-based layer inspired by the Fourier Neural Operator for better TS representation. Experiments on TS benchmarks demonstrate the discriminability, robustness, and state-of-the-art performance of UniJDOT.

arxiv情報

著者 Romain Mussard,Fannia Pacheco,Maxime Berar,Gilles Gasso,Paul Honeine
発行日 2025-04-11 14:32:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Deep Joint Distribution Optimal Transport for Universal Domain Adaptation on Time Series はコメントを受け付けていません

AstroLLaVA: towards the unification of astronomical data and natural language

要約

自然な対話を通じて天文学との相互作用を可能にする天文学のビジョン言語モデルであるAstrollavaを提示します。
NASAの「その日の天文学額」、NASA/ESAハバブルスペーステレスコープから供給されたキャプションと質問回答ペアを備えた$ \ sim $ 30k画像の多様なデータセットでLlavaモデルを微調整することにより、我々は、天文学的なコンセプトに描かれたオープンな質問に応答できるモデルを作成します。
2段階の微調整プロセスは、天文学ドメインでの画像キャプションと視覚的な質問の両方にモデルを適応させます。
天文学的な視覚的質問にベンチマークに応答し、モデルの重み、コード、およびトレーニングセットをリリースするために、この分野でのオープンソースの作業を促進するために、アストロラバのパフォーマンスを示します。
最後に、事前に訓練された言語モデルとの一般的な天文データの調整に向けたロードマップを提案し、関心のある研究者にこの目的に向けてコラボレーションのためのオープンスペースを提供します。

要約(オリジナル)

We present AstroLLaVA, a vision language model for astronomy that enables interaction with astronomical imagery through natural dialogue. By fine-tuning the LLaVA model on a diverse dataset of $\sim$30k images with captions and question-answer pairs sourced from NASA’s `Astronomy Picture of the Day’, the European Southern Observatory, and the NASA/ESA Hubble Space Telescope, we create a model capable of answering open-ended questions about astronomical concepts depicted visually. Our two-stage fine-tuning process adapts the model to both image captioning and visual question answering in the astronomy domain. We demonstrate AstroLLaVA’s performance on an astronomical visual question answering benchmark and release the model weights, code, and training set to encourage further open source work in this space. Finally, we suggest a roadmap towards general astronomical data alignment with pre-trained language models, and provide an open space for collaboration towards this end for interested researchers.

arxiv情報

著者 Sharaf Zaman,Michael J. Smith,Pranav Khetarpal,Rishabh Chakrabarty,Michele Ginolfi,Marc Huertas-Company,Maja Jabłońska,Sandor Kruk,Matthieu Le Lain,Sergio José Rodríguez Méndez,Dimitrios Tanoglidis
発行日 2025-04-11 14:36:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.IM, cs.LG | AstroLLaVA: towards the unification of astronomical data and natural language はコメントを受け付けていません

RAILS: Risk-Aware Iterated Local Search for Joint SLA Decomposition and Service Provider Management in Multi-Domain Networks

要約

第5世代(5G)テクノロジーの出現により、モバイルネットワークがマルチサービス環境に変換され、多様なサービスレベル契約(SLA)を満たすために効率的なネットワークスライシングが必要です。
さまざまなサービスプロバイダーが潜在的に管理する潜在的な複数のネットワークドメインにわたるSLA分解は、リアルタイムの基礎となるドメイン条件への可視性が限られているため、重要な課題をもたらします。
このペーパーでは、マルチドメインネットワークのSLA分解とサービスプロバイダーの選択に共同で対処するように設計された新しいリスクモデル駆動型メタヒューリスティックフレームワークである、リスク認識の繰り返しローカル検索(Rails)を紹介します。
オンラインリスクモデリングを繰り返しローカル検索原則と統合することにより、Railsはドメインコントローラーからの履歴フィードバックを利用して、複雑な最適化ランドスケープを効果的にナビゲートします。
共同問題を混合整数非線形プログラミング(MINLP)問題として定式化し、そのNPハードネスを証明します。
大規模なシミュレーションは、Railsが最適に近いパフォーマンスを達成し、最新のマルチドメインネットワークにおける適応SLA管理のための効率的でリアルタイムのソリューションを提供することを示しています。

要約(オリジナル)

The emergence of the fifth generation (5G) technology has transformed mobile networks into multi-service environments, necessitating efficient network slicing to meet diverse Service Level Agreements (SLAs). SLA decomposition across multiple network domains, each potentially managed by different service providers, poses a significant challenge due to limited visibility into real-time underlying domain conditions. This paper introduces Risk-Aware Iterated Local Search (RAILS), a novel risk model-driven meta-heuristic framework designed to jointly address SLA decomposition and service provider selection in multi-domain networks. By integrating online risk modeling with iterated local search principles, RAILS effectively navigates the complex optimization landscape, utilizing historical feedback from domain controllers. We formulate the joint problem as a Mixed-Integer Nonlinear Programming (MINLP) problem and prove its NP-hardness. Extensive simulations demonstrate that RAILS achieves near-optimal performance, offering an efficient, real-time solution for adaptive SLA management in modern multi-domain networks.

arxiv情報

著者 Cyril Shih-Huan Hsu,Chrysa Papagianni,Paola Grosso
発行日 2025-04-11 14:48:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NI | RAILS: Risk-Aware Iterated Local Search for Joint SLA Decomposition and Service Provider Management in Multi-Domain Networks はコメントを受け付けていません

Decoding Android Malware with a Fraction of Features: An Attention-Enhanced MLP-SVM Approach

要約

Androidマルウェアのエスカレート洗練は、従来の検出方法に大きな課題をもたらし、脅威を高精度で効率的に特定して分類できる革新的なアプローチを必要とします。
このペーパーでは、Androidマルウェアの検出と分類をより効果的にするために、注意強化マルチレイヤーパーセプトロン(MLP)をサポートベクターマシン(SVM)と相乗的に統合する新しいフレームワークを紹介します。
包括的なCCCS-CCIC-andMal-2020データセットで利用可能な9,760を超える47の機能を慎重に分析することにより、当社のMLP-SVMモデルは、悪意のあるアプリケーションの特定で99%を超える印象的な精度を達成します。
注意メカニズムで強化されたMLPは、最も識別的な機能に焦点を当て、線形判別分析(LDA)を使用して47の機能を14のコンポーネントのみにさらに削減します。
次元のこの大幅な減少にもかかわらず、RBFカーネルを装備したSVMコンポーネントは、これらのコンポーネントを高次元空間にマッピングし、それぞれのファミリにマルウェアの正確な分類を促進します。
厳密な評価、精度、精度、リコール、およびF1スコアメトリックを含む、既存の最先端の技術と比較して、アプローチの優位性を確認します。
提案されたフレームワークは、コンパクトな機能セットを活用することにより、計算の複雑さを大幅に削減するだけでなく、進化するAndroidマルウェアの状況に対する回復力も示しています。

要約(オリジナル)

The escalating sophistication of Android malware poses significant challenges to traditional detection methods, necessitating innovative approaches that can efficiently identify and classify threats with high precision. This paper introduces a novel framework that synergistically integrates an attention-enhanced Multi-Layer Perceptron (MLP) with a Support Vector Machine (SVM) to make Android malware detection and classification more effective. By carefully analyzing a mere 47 features out of over 9,760 available in the comprehensive CCCS-CIC-AndMal-2020 dataset, our MLP-SVM model achieves an impressive accuracy over 99% in identifying malicious applications. The MLP, enhanced with an attention mechanism, focuses on the most discriminative features and further reduces the 47 features to only 14 components using Linear Discriminant Analysis (LDA). Despite this significant reduction in dimensionality, the SVM component, equipped with an RBF kernel, excels in mapping these components to a high-dimensional space, facilitating precise classification of malware into their respective families. Rigorous evaluations, encompassing accuracy, precision, recall, and F1-score metrics, confirm the superiority of our approach compared to existing state-of-the-art techniques. The proposed framework not only significantly reduces the computational complexity by leveraging a compact feature set but also exhibits resilience against the evolving Android malware landscape.

arxiv情報

著者 Safayat Bin Hakim,Muhammad Adil,Kamal Acharya,Houbing Herbert Song
発行日 2025-04-11 14:51:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Decoding Android Malware with a Fraction of Features: An Attention-Enhanced MLP-SVM Approach はコメントを受け付けていません

Addressing Graph Heterogeneity and Heterophily from A Spectral Perspective

要約

Graph Neural Networks(GNNS)は、半監視ノード分類タスクで優れたパフォーマンスを実証しています。
それにもかかわらず、2つの主要な課題は持続します:不均一性と異種。
これら2つの課題のそれぞれは、GNNのパフォーマンスを大幅に妨げる可能性があります。
不均一性とは、複数のタイプのノードまたはエッジを持つグラフを指しますが、ヘテロフィリーとは、接続されたノードには異なる属性またはラベルがある可能性が高いという事実を指します。
不均一な異種グラフを研究する作品はほとんどありませんでしたが、それらは特定のメタパスの異種と考えられ、表現力が欠けているだけであるか、高い表現力を持っているが、高次の隣人を悪用することはできません。
このホワイトペーパーでは、ローカル独立フィルタリングとグローバルハイブリッドフィルタリングの2つのモジュールを使用する不均一な異種スペクトルグラフニューラルネットワーク(H2SGNN)を提案します。
ローカル独立フィルタリングは、異なる同性愛の下でノード表現を適応的に学習しますが、グローバルなハイブリッドフィルタリングは高次の隣人を悪用して、より多くのメタパスを学習します。
提案されたH2SGNNの有効性を検証するために、4つのデータセットで広範な実験が行われます。これは、パラメーターが少なく、メモリ消費量が少ない優れたパフォーマンスを実現します。
このコードは、githubリポジトリ(https://github.com/lukangkang123/h2sgnn/で入手できます。

要約(オリジナル)

Graph neural networks (GNNs) have demonstrated excellent performance in semi-supervised node classification tasks. Despite this, two primary challenges persist: heterogeneity and heterophily. Each of these two challenges can significantly hinder the performance of GNNs. Heterogeneity refers to a graph with multiple types of nodes or edges, while heterophily refers to the fact that connected nodes are more likely to have dissimilar attributes or labels. Although there have been few works studying heterogeneous heterophilic graphs, they either only consider the heterophily of specific meta-paths and lack expressiveness, or have high expressiveness but fail to exploit high-order neighbors. In this paper, we propose a Heterogeneous Heterophilic Spectral Graph Neural Network (H2SGNN), which employs two modules: local independent filtering and global hybrid filtering. Local independent filtering adaptively learns node representations under different homophily, while global hybrid filtering exploits high-order neighbors to learn more possible meta-paths. Extensive experiments are conducted on four datasets to validate the effectiveness of the proposed H2SGNN, which achieves superior performance with fewer parameters and memory consumption. The code is available at the GitHub repo: https://github.com/Lukangkang123/H2SGNN/.

arxiv情報

著者 Kangkang Lu,Yanhua Yu,Zhiyong Huang,Yunshan Ma,Xiao Wang,Meiyu Liang,Yuling Wang,Yimeng Ren,Tat-Seng Chua
発行日 2025-04-11 14:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Addressing Graph Heterogeneity and Heterophily from A Spectral Perspective はコメントを受け付けていません

Tokenphormer: Structure-aware Multi-token Graph Transformer for Node Classification

要約

グラフニューラルネットワーク(GNNS)は、グラフデータマイニングタスクで広く使用されています。
従来のGNNは、ローカルおよび構造情報を効果的に利用できるメッセージパススキームに従います。
ただし、過剰なスムージングと過度の剥離の現象は、メッセージの通過プロセスの受容フィールドを制限します。
これらの問題に対処するためにグラフ変圧器が導入され、グローバルな受容フィールドを達成しますが、無関係なノードのノイズと構造情報の喪失に苦しんでいます。
したがって、自然言語処理(NLP)における細かいトークンベースの表現学習からインスピレーションを得て、構造認識マルチトークングラフトランス(Tokenphormer)を提案し、複数のトークンを生成してローカルおよび構造情報を効果的にキャプチャし、さまざまなレベルの粒度でグローバル情報を探索します。
具体的には、最初に、グラフを探索し、構造とコンテキスト情報を柔軟にキャプチャするために、4つのウォークタイプで構成される混合ウォークで生成されたウォークトークンを紹介します。
ローカルおよびグローバルな情報カバレッジを確保するために、SGPMトークン(自己監視グラフ前路モデル、SGPMを介して取得)とホップトークンも導入し、それぞれウォークトークンの長さと密度の制限を延長します。
最後に、これらの表現力豊かなトークンは、ノード表現を共同で学習するためにトランスモデルに供給されます。
実験結果は、提案されたトークンフォーマーの能力がノード分類タスクで最先端のパフォーマンスを達成できることを示しています。

要約(オリジナル)

Graph Neural Networks (GNNs) are widely used in graph data mining tasks. Traditional GNNs follow a message passing scheme that can effectively utilize local and structural information. However, the phenomena of over-smoothing and over-squashing limit the receptive field in message passing processes. Graph Transformers were introduced to address these issues, achieving a global receptive field but suffering from the noise of irrelevant nodes and loss of structural information. Therefore, drawing inspiration from fine-grained token-based representation learning in Natural Language Processing (NLP), we propose the Structure-aware Multi-token Graph Transformer (Tokenphormer), which generates multiple tokens to effectively capture local and structural information and explore global information at different levels of granularity. Specifically, we first introduce the walk-token generated by mixed walks consisting of four walk types to explore the graph and capture structure and contextual information flexibly. To ensure local and global information coverage, we also introduce the SGPM-token (obtained through the Self-supervised Graph Pre-train Model, SGPM) and the hop-token, extending the length and density limit of the walk-token, respectively. Finally, these expressive tokens are fed into the Transformer model to learn node representations collaboratively. Experimental results demonstrate that the capability of the proposed Tokenphormer can achieve state-of-the-art performance on node classification tasks.

arxiv情報

著者 Zijie Zhou,Zhaoqi Lu,Xuekai Wei,Rongqin Chen,Shenghui Zhang,Pak Lon Ip,Leong Hou U
発行日 2025-04-11 15:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Tokenphormer: Structure-aware Multi-token Graph Transformer for Node Classification はコメントを受け付けていません

Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning

要約

継続的な強化学習セットアップを検討します。学習エージェントは、以前に取得したスキルセットを保持しながら、新しいタスクに継続的に適応しなければなりません。
このような問題は、特にトポロジーまたはキネマティックの変更に起因するナビゲーションタスクで、自律的なロボット工学とビデオゲームのシミュレーションで優勢です。
これらの問題に対処するために、オフラインデータからナビゲーション設定で継続的に学習するために特別に設計された新しい階層的なフレームワークであるHISPOを紹介します。
私たちの方法は、既存の知識を維持しながら、新しいタスクに柔軟かつ効率的な適応を可能にするために、ニューラルネットワークの明確なポリシーサブスペースを活用しています。
慎重な実験的研究を通じて、古典的なムホコ迷路環境と複雑なビデオゲームのようなナビゲーションシミュレーションの両方での方法の有効性を実証し、特にメモリの使用と効率に関して、特に古典的な継続的な学習メトリックに関する競争力のあるパフォーマンスを紹介します。

要約(オリジナル)

We consider a Continual Reinforcement Learning setup, where a learning agent must continuously adapt to new tasks while retaining previously acquired skill sets, with a focus on the challenge of avoiding forgetting past gathered knowledge and ensuring scalability with the growing number of tasks. Such issues prevail in autonomous robotics and video game simulations, notably for navigation tasks prone to topological or kinematic changes. To address these issues, we introduce HiSPO, a novel hierarchical framework designed specifically for continual learning in navigation settings from offline data. Our method leverages distinct policy subspaces of neural networks to enable flexible and efficient adaptation to new tasks while preserving existing knowledge. We demonstrate, through a careful experimental study, the effectiveness of our method in both classical MuJoCo maze environments and complex video game-like navigation simulations, showcasing competitive performances and satisfying adaptability with respect to classical continual learning metrics, in particular regarding the memory usage and efficiency.

arxiv情報

著者 Anthony Kobanda,Rémy Portelas,Odalric-Ambrym Maillard,Ludovic Denoyer
発行日 2025-04-11 15:18:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning はコメントを受け付けていません

MooseAgent: A LLM Based Multi-agent Framework for Automating Moose Simulation

要約

有限要素法(FEM)は、エンジニアリングおよび科学的コンピューティングで広く使用されていますが、その前処理、ソルバー構成、および後処理段階はしばしば時間がかかり、特殊な知識が必要です。
このペーパーでは、大規模な事前訓練モデル(LLM)とマルチエージェントシステムを組み合わせたMulti-PhysicsシミュレーションフレームワークMoose用の自動化されたソリューションフレームワークMooseagentを提案します。
このフレームワークは、LLMSを使用して自然言語でユーザーが説明したシミュレーション要件を理解し、タスク分解と多ラウンドの反復検証戦略を採用して、Moose入力ファイルを自動的に生成します。
精度を向上させ、モデルの幻覚を減らすために、システムは注釈付きのムース入力カードと関数ドキュメントを含むベクトルデータベースを構築および利用します。
熱伝達、メカニック、位相フィールド、多物理カップリングなど、いくつかの典型的なケースで実験的評価を実施しました。
結果は、MooseagentがMooseシミュレーションプロセスをある程度自動化できることを示しています。特に、比較的単純な単一物理学の問題に対処する際に高い成功率を示しています。
この研究の主な貢献は、Mooseのマルチエージェント自動化されたフレームワークの提案です。これは、有限要素シミュレーションプロセスを簡素化し、ユーザーの障壁を下げる可能性を検証し、インテリジェントな有限要素シミュレーションソフトウェアの開発のための新しいアイデアを提供する可能性を検証します。
このペーパーで提案されているMooseagentフレームワークのコードはオープンソースであり、https://github.com/taozhan18/mooseagentで入手できます

要約(オリジナル)

The Finite Element Method (FEM) is widely used in engineering and scientific computing, but its pre-processing, solver configuration, and post-processing stages are often time-consuming and require specialized knowledge. This paper proposes an automated solution framework, MooseAgent, for the multi-physics simulation framework MOOSE, which combines large-scale pre-trained language models (LLMs) with a multi-agent system. The framework uses LLMs to understand user-described simulation requirements in natural language and employs task decomposition and multi-round iterative verification strategies to automatically generate MOOSE input files. To improve accuracy and reduce model hallucinations, the system builds and utilizes a vector database containing annotated MOOSE input cards and function documentation. We conducted experimental evaluations on several typical cases, including heat transfer, mechanics, phase field, and multi-physics coupling. The results show that MooseAgent can automate the MOOSE simulation process to a certain extent, especially demonstrating a high success rate when dealing with relatively simple single-physics problems. The main contribution of this research is the proposal of a multi-agent automated framework for MOOSE, which validates its potential in simplifying finite element simulation processes and lowering the user barrier, providing new ideas for the development of intelligent finite element simulation software. The code for the MooseAgent framework proposed in this paper has been open-sourced and is available at https://github.com/taozhan18/MooseAgent

arxiv情報

著者 Tao Zhang,Zhenhai Liu,Yong Xin,Yongjun Jiao
発行日 2025-04-11 15:25:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE | MooseAgent: A LLM Based Multi-agent Framework for Automating Moose Simulation はコメントを受け付けていません

Gradient Descent Robustly Learns the Intrinsic Dimension of Data in Training Convolutional Neural Networks

要約

最新のニューラルネットワークは通常、非常に過剰なパラメーター化されています。
過剰パラメーター化されたネットワークの幅広い使用法の背後にあるのは、データが単純である場合、トレーニングされたネットワークが単純な予測因子と自動的に同等になるという信念です。
この直感に続いて、多くの既存の作品は、ニューラルネットワークの「ランク」とデータのランクとの関係のさまざまな概念を研究しています。
この作業では、勾配降下によって訓練された畳み込みニューラルネットワーク(CNNS)のランクを研究し、ランクの堅牢性を画像の背景ノイズに特に焦点を当てています。
具体的には、画像にバックグラウンドノイズを追加すると、勾配降下でトレーニングされたCNNのランクがデータのランクと比較してはるかに少ない影響を受けていることを指摘します。
理論的なケーススタディで主張をサポートします。このケーススタディでは、バックグラウンドノイズが追加された低ランクのクリーン画像を特徴付ける特定のデータモデルを検討します。
勾配降下によって訓練されたCNNSは、比較的大きな背景ノイズの存在にもかかわらず、きれいな画像の本質的な次元を学ぶことができることを証明しています。
また、請求をさらに検証するために、合成および実際のデータセットで実験を実施します。

要約(オリジナル)

Modern neural networks are usually highly over-parameterized. Behind the wide usage of over-parameterized networks is the belief that, if the data are simple, then the trained network will be automatically equivalent to a simple predictor. Following this intuition, many existing works have studied different notions of ‘ranks’ of neural networks and their relation to the rank of data. In this work, we study the rank of convolutional neural networks (CNNs) trained by gradient descent, with a specific focus on the robustness of the rank to image background noises. Specifically, we point out that, when adding background noises to images, the rank of the CNN trained with gradient descent is affected far less compared with the rank of the data. We support our claim with a theoretical case study, where we consider a particular data model to characterize low-rank clean images with added background noises. We prove that CNNs trained by gradient descent can learn the intrinsic dimension of clean images, despite the presence of relatively large background noises. We also conduct experiments on synthetic and real datasets to further validate our claim.

arxiv情報

著者 Chenyang Zhang,Peifeng Gao,Difan Zou,Yuan Cao
発行日 2025-04-11 15:29:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Gradient Descent Robustly Learns the Intrinsic Dimension of Data in Training Convolutional Neural Networks はコメントを受け付けていません