Bubble Dynamics Transformer: Microrheology at Ultra-High Strain Rates

要約

レーザー誘導慣性キャビテーション(LIC) – 焦点を合わせた高エネルギーパルスレーザーのためにマイクロスケール蒸気泡が核形成し、周囲の高局所圧力監督の下で激しく崩壊し、非常に高いひずみ速度(> 1000 1/s)で軟質生物学的材料メカニクスを調査するユニークな機会を激しく崩壊させます。
従来のレオロジーツールは、速度、解像度、または侵襲性を負荷することにより、これらのレジームで制限されることがよくあります。
ここでは、LICを活用して超高ひずみ速度で生物材料の粘弾性特性を特徴付ける新しい機械学習(ML)ベースの微小球体フレームワークを導入します。
超高速イメージングを利用して、さまざまな柔らかい粘弾性材料でのLICイベント中に、時間分解されたバブル半径のダイナミクスをキャプチャします。
これらのバブル半径と時間測定は、物理ベースのシミュレーションデータでトレーニングされたニューラルネットワークである新しく開発されたバブルダイナミクストランス(BDT)を使用して分析されます。
BDTは、材料の粘弾性パラメーターを正確に推進し、反復継手または複雑な反転プロセスの必要性を排除します。
これにより、生物医学的アプリケーションと材料科学に大きな意味を持つ、極端な負荷条件下での柔らかい材料の迅速で正確な接触特性を可能にします。

要約(オリジナル)

Laser-induced inertial cavitation (LIC)-where microscale vapor bubbles nucleate due to a focused high-energy pulsed laser and then violently collapse under surrounding high local pressures-offers a unique opportunity to investigate soft biological material mechanics at extremely high strain rates (>1000 1/s). Traditional rheological tools are often limited in these regimes by loading speed, resolution, or invasiveness. Here we introduce novel machine learning (ML) based microrheological frameworks that leverage LIC to characterize the viscoelastic properties of biological materials at ultra-high strain rates. We utilize ultra-high-speed imaging to capture time-resolved bubble radius dynamics during LIC events in various soft viscoelastic materials. These bubble radius versus time measurements are then analyzed using a newly developed Bubble Dynamics Transformer (BDT), a neural network trained on physics-based simulation data. The BDT accurately infers material viscoelastic parameters, eliminating the need for iterative fitting or complex inversion processes. This enables fast, accurate, and non-contact characterization of soft materials under extreme loading conditions, with significant implications for biomedical applications and materials science.

arxiv情報

著者 Lehu Bu,Zhaohan Yu,Shaoting Lin,Jan N. Fuhg,Jin Yang
発行日 2025-06-13 16:38:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, physics.flu-dyn | Bubble Dynamics Transformer: Microrheology at Ultra-High Strain Rates はコメントを受け付けていません

Automated Treatment Planning for Interstitial HDR Brachytherapy for Locally Advanced Cervical Cancer using Deep Reinforcement Learning

要約

高用量レート(HDR)ブラチセラピーは、局所的に進行した子宮頸がんの治療において重要な役割を果たしますが、手動での治療計画の専門知識に大きく依存しています。
この研究の目的は、強化学習(RL)と用量ベースの最適化を統合して、一貫性と効率を改善して臨床的に許容可能な治療計画を生成する完全に自動化されたHDR Brachytherapy計画フレームワークを開発することです。
階層的な2段階のオートプランニングフレームワークを提案します。
最初の段階では、ディープQネットワーク(DQN)ベースのRLエージェントが治療計画パラメーター(TPP)を繰り返し選択します。これは、ターゲットカバレッジとリスク(OAR)スパーリングの間のトレードオフを制御します。
エージェントの状態表現には、用量容積ヒストグラム(DVH)メトリックと現在のTPP値の両方が含まれ、その報酬関数には、臨床用量の目的と標的のD90、V150、V200を含む安全上の制約、および関連するすべてのOAR(bladder、rectum、sigmoid、small bowel、および大弓)のD2CCが組み込まれています。
第2段階では、カスタマイズされたAdamベースのオプティマイザーが、臨床的に情報に基づいた損失関数を使用して、選択したTPPの対応する滞留時間分布を計算します。
このフレームワークは、複雑なアプリケーターの幾何学を持つ患者のコホートで評価されました。
提案されたフレームワークは、多様な患者の解剖学にわたって臨床的に意味のあるTPP調整を成功裏に学習しました。
目に見えない検査患者の場合、RLベースの自動計画方法は平均スコア93.89%を達成し、平均91.86%の臨床計画を上回りました。
これらの発見は、ほとんどの場合、完全なターゲットカバレッジを維持し、CTVホットスポットを減らしながらスコアの改善が達成されたことを考えると注目に値します。

要約(オリジナル)

High-dose-rate (HDR) brachytherapy plays a critical role in the treatment of locally advanced cervical cancer but remains highly dependent on manual treatment planning expertise. The objective of this study is to develop a fully automated HDR brachytherapy planning framework that integrates reinforcement learning (RL) and dose-based optimization to generate clinically acceptable treatment plans with improved consistency and efficiency. We propose a hierarchical two-stage autoplanning framework. In the first stage, a deep Q-network (DQN)-based RL agent iteratively selects treatment planning parameters (TPPs), which control the trade-offs between target coverage and organ-at-risk (OAR) sparing. The agent’s state representation includes both dose-volume histogram (DVH) metrics and current TPP values, while its reward function incorporates clinical dose objectives and safety constraints, including D90, V150, V200 for targets, and D2cc for all relevant OARs (bladder, rectum, sigmoid, small bowel, and large bowel). In the second stage, a customized Adam-based optimizer computes the corresponding dwell time distribution for the selected TPPs using a clinically informed loss function. The framework was evaluated on a cohort of patients with complex applicator geometries. The proposed framework successfully learned clinically meaningful TPP adjustments across diverse patient anatomies. For the unseen test patients, the RL-based automated planning method achieved an average score of 93.89%, outperforming the clinical plans which averaged 91.86%. These findings are notable given that score improvements were achieved while maintaining full target coverage and reducing CTV hot spots in most cases.

arxiv情報

著者 Mohammadamin Moradi,Runyu Jiang,Yingzi Liu,Malvern Madondo,Tianming Wu,James J. Sohn,Xiaofeng Yang,Yasmin Hasan,Zhen Tian
発行日 2025-06-13 17:07:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.med-ph | Automated Treatment Planning for Interstitial HDR Brachytherapy for Locally Advanced Cervical Cancer using Deep Reinforcement Learning はコメントを受け付けていません

MindFlayer SGD: Efficient Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times

要約

確率的勾配を計算できる複数の並列労働者を使用して、分散型設定で滑らかな非コンベックス関数の期待を最小限に抑える問題を調査します。
この文脈における重要な課題は、労働者の間で任意に不均一で確率的な計算時間が存在することです。これは、既存の並列確率勾配降下(SGD)法の性能を著しく分解することができます。
一部の並列SGDアルゴリズムは、決定論的だが不均一な遅延の下で最適なパフォーマンスを実現しますが、コンピューティング時間がランダムである場合、その効果は低下します – デザインでは明示的に対処されていないシナリオ。
このギャップを埋めるために、Mindflayer SGDを導入します。これは、確率的で不均一な計算時間を処理するために特別に設計された新しい平行SGDメソッドです。
理論的分析と経験的評価を通じて、Mindflayer SGDは、特に尾のあるノイズがある環境で、既存のベースラインを常に上回ることを実証します。
私たちの結果は、その堅牢性とスケーラビリティを強調しており、大規模な分散学習タスクに魅力的な選択となっています。

要約(オリジナル)

We investigate the problem of minimizing the expectation of smooth nonconvex functions in a distributed setting with multiple parallel workers that are able to compute stochastic gradients. A significant challenge in this context is the presence of arbitrarily heterogeneous and stochastic compute times among workers, which can severely degrade the performance of existing parallel stochastic gradient descent (SGD) methods. While some parallel SGD algorithms achieve optimal performance under deterministic but heterogeneous delays, their effectiveness diminishes when compute times are random – a scenario not explicitly addressed in their design. To bridge this gap, we introduce MindFlayer SGD, a novel parallel SGD method specifically designed to handle stochastic and heterogeneous compute times. Through theoretical analysis and empirical evaluation, we demonstrate that MindFlayer SGD consistently outperforms existing baselines, particularly in environments with heavy-tailed noise. Our results highlight its robustness and scalability, making it a compelling choice for large-scale distributed learning tasks.

arxiv情報

著者 Artavazd Maranjyan,Omar Shaikh Omar,Peter Richtárik
発行日 2025-06-13 17:24:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, math.OC, stat.ML | MindFlayer SGD: Efficient Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times はコメントを受け付けていません

Self-Regulating Cars: Automating Traffic Control in Free Flow Road Networks

要約

郊外の高速道路などのフリーフローロードネットワークは、通勤者の流入の増加と限られたインフラストラクチャのために、ますます交通渋滞を経験しています。
トラフィックシグナルやローカルヒューリスティックなどの従来の制御メカニズムは、これらの高速で信号のない環境で効果がないか、実行不可能です。
新しい物理的インフラストラクチャを必要とせずに、スループットを最適化し、渋滞を防ぐために車両速度を動的に変調する強化学習ベースのトラフィックコントロールプロトコルである自己規制車を導入します。
当社のアプローチは、古典的なトラフィックフロー理論、ギャップ受容モデル、および顕微鏡シミュレーションを物理学に基づいたRLフレームワークに統合します。
道路をスーパーセグメントに抽象化することにより、エージェントは緊急の流れのダイナミクスをキャプチャし、瞬時の交通観察から堅牢な速度変調ポリシーを学習します。
現実世界の高速道路ネットワーク上の高忠実度PTV VISSIMシミュレーターで評価されたこの方法は、合計スループットを5%改善し、平均遅延を13%減らし、非制御設定と比較して合計停止を3%減少させます。
また、さまざまなトラフィックパターンを一般化しながら、スムーズで抵抗に耐える流れを達成し、スケーラブルなML駆動型のトラフィック管理の可能性を示しています。

要約(オリジナル)

Free-flow road networks, such as suburban highways, are increasingly experiencing traffic congestion due to growing commuter inflow and limited infrastructure. Traditional control mechanisms, such as traffic signals or local heuristics, are ineffective or infeasible in these high-speed, signal-free environments. We introduce self-regulating cars, a reinforcement learning-based traffic control protocol that dynamically modulates vehicle speeds to optimize throughput and prevent congestion, without requiring new physical infrastructure. Our approach integrates classical traffic flow theory, gap acceptance models, and microscopic simulation into a physics-informed RL framework. By abstracting roads into super-segments, the agent captures emergent flow dynamics and learns robust speed modulation policies from instantaneous traffic observations. Evaluated in the high-fidelity PTV Vissim simulator on a real-world highway network, our method improves total throughput by 5%, reduces average delay by 13%, and decreases total stops by 3% compared to the no-control setting. It also achieves smoother, congestion-resistant flow while generalizing across varied traffic patterns, demonstrating its potential for scalable, ML-driven traffic management.

arxiv情報

著者 Ankit Bhardwaj,Rohail Asim,Sachin Chauhan,Yasir Zaki,Lakshminarayanan Subramanian
発行日 2025-06-13 17:31:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Self-Regulating Cars: Automating Traffic Control in Free Flow Road Networks はコメントを受け付けていません

Learning Before Filtering: Real-Time Hardware Learning at the Detector Level

要約

センサー技術と自動化の進歩は、関連情報をリアルタイムで識別および抽出する能力がますます重要になっているデータの豊富さの時代に導かれています。
アプリオリの知識に依存する従来のフィルタリングアプローチは、しばしば動的または予期しないデータ機能に適応するのに苦労しています。
機械学習は、トレーニングが検出器またはその近くで直接発生する可能性がある場合に、特に特に魅力的な代替品を提供します。
このペーパーでは、リアルタイムのニューラルネットワークトレーニング用に設計されたデジタルハードウェアアーキテクチャを紹介します。
デザインは、各アーキテクチャコンポーネントの詳細な分析とパフォーマンスへの影響を伴う、実装に依存しない方法で説明されています。
システムパラメーター化を通じて、この調査では、処理速度、モデルの複雑さ、ハードウェアリソースの使用率の間のトレードオフを調査します。
実用的な例は、これらのパラメーターがさまざまなユースケースでの適用性にどのように影響するかを示しています。
FPGAでの概念実装の実装は、現場トレーニングを実証し、従来のソフトウェアベースのアプローチと比較して計算精度が保存されていることを確認します。
さらに、リソースの推定によると、現在の世代のFPGAがチップあたり約3,500個のニューロンのネットワークをトレーニングできることが示されています。
アーキテクチャはスケーラブルで適応性があり、検出器システム内に直接学習を統合し、新しいクラスの極端なリアルタイム情報処理を可能にするための大きな進歩を表しています。

要約(オリジナル)

Advances in sensor technology and automation have ushered in an era of data abundance, where the ability to identify and extract relevant information in real time has become increasingly critical. Traditional filtering approaches, which depend on a priori knowledge, often struggle to adapt to dynamic or unanticipated data features. Machine learning offers a compelling alternative-particularly when training can occur directly at or near the detector. This paper presents a digital hardware architecture designed for real-time neural network training, specifically optimized for high-throughput data ingestion. The design is described in an implementation-independent manner, with detailed analysis of each architectural component and their performance implications. Through system parameterization, the study explores trade-offs between processing speed, model complexity, and hardware resource utilization. Practical examples illustrate how these parameters affect applicability across various use cases. A proof-of-concept implementation on an FPGA demonstrates in-situ training, confirming that computational accuracy is preserved relative to conventional software-based approaches. Moreover, resource estimates indicate that current-generation FPGAs can train networks of approximately 3,500 neurons per chip. The architecture is both scalable and adaptable, representing a significant advancement toward integrating learning directly within detector systems and enabling a new class of extreme-edge, real-time information processing.

arxiv情報

著者 Boštjan Maček
発行日 2025-06-13 17:38:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, hep-ex | Learning Before Filtering: Real-Time Hardware Learning at the Detector Level はコメントを受け付けていません

Interpretable representation learning of quantum data enabled by probabilistic variational autoencoders

要約

解釈可能な機械学習は、急速に科学的発見のための重要なツールになりつつあります。
既存のアプローチの中で、バリエーション自動エンコーダー(VAE)は、調査中のシステムの監督や事前の知識がなく、いくつかの入力データの隠された物理的特徴を抽出することに有望を示しています。
しかし、VAEが意味のある解釈可能な表現を作成する能力は、入力の基礎となる確率分布の正確な近似に依存しています。
量子データを処理する場合、VAEはその固有のランダム性と複雑な相関を説明する必要があります。
VAEは以前は量子データに適用されてきましたが、それらはしばしばその確率的な性質を無視し、意味のある物理的記述子の抽出を妨げています。
ここでは、2つの重要な変更により、vaesが物理的に意味のある潜在表現を学習できることを実証します。量子状態を忠実に再現できるデコーダーと、このタスクに合わせた確率的損失です。
ベンチマークQuantum Spinモデルを使用して、標準的な方法が失敗するレジームを特定し、アプローチによって学んだ表現は意味のある解釈可能であり続けます。
Rydberg Atomアレイの実験データに適用されるこのモデルは、以前のラベル、ハミルトニアンの詳細、または関連する順序パラメーターの知識にアクセスせずに相構造を自律的に明らかにし、量子システムの研究のための監視されていない解釈可能なツールとしての可能性を強調します。

要約(オリジナル)

Interpretable machine learning is rapidly becoming a crucial tool for scientific discovery. Among existing approaches, variational autoencoders (VAEs) have shown promise in extracting the hidden physical features of some input data, with no supervision nor prior knowledge of the system at study. Yet, the ability of VAEs to create meaningful, interpretable representations relies on their accurate approximation of the underlying probability distribution of their input. When dealing with quantum data, VAEs must hence account for its intrinsic randomness and complex correlations. While VAEs have been previously applied to quantum data, they have often neglected its probabilistic nature, hindering the extraction of meaningful physical descriptors. Here, we demonstrate that two key modifications enable VAEs to learn physically meaningful latent representations: a decoder capable of faithfully reproduce quantum states and a probabilistic loss tailored to this task. Using benchmark quantum spin models, we identify regimes where standard methods fail while the representations learned by our approach remain meaningful and interpretable. Applied to experimental data from Rydberg atom arrays, the model autonomously uncovers the phase structure without access to prior labels, Hamiltonian details, or knowledge of relevant order parameters, highlighting its potential as an unsupervised and interpretable tool for the study of quantum systems.

arxiv情報

著者 Paulin de Schoulepnikoff,Gorka Muñoz-Gil,Hendrik Poulsen Nautrup,Hans J. Briegel
発行日 2025-06-13 17:39:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.LG, quant-ph | Interpretable representation learning of quantum data enabled by probabilistic variational autoencoders はコメントを受け付けていません

Compression Aware Certified Training

要約

安全性が批判的でリソースに制約のある環境で展開された深いニューラルネットワークは、効率と堅牢性のバランスをとる必要があります。
既存の方法は、圧縮と認定された堅牢性を個別の目標として扱い、効率または安全のいずれかを損ないます。
トレーニング中にこれらの目的を統合するための一般的なフレームワークであるCactus(ネットワークセットを使用したCompression認識認定トレーニング)を提案します。
サボテンモデルは、圧縮された場合でも、高い認定精度を維持します。
剪定と量子化の両方にサボテンを適用し、高精度と認定可能な堅牢性を維持しながら効率的に圧縮できるモデルを効果的にトレーニングすることを示します。
Cactusは、さまざまなデータセットと入力仕様で剪定と量子化の両方で最先端の精度と認定パフォーマンスを達成します。

要約(オリジナル)

Deep neural networks deployed in safety-critical, resource-constrained environments must balance efficiency and robustness. Existing methods treat compression and certified robustness as separate goals, compromising either efficiency or safety. We propose CACTUS (Compression Aware Certified Training Using network Sets), a general framework for unifying these objectives during training. CACTUS models maintain high certified accuracy even when compressed. We apply CACTUS for both pruning and quantization and show that it effectively trains models which can be efficiently compressed while maintaining high accuracy and certifiable robustness. CACTUS achieves state-of-the-art accuracy and certified performance for both pruning and quantization on a variety of datasets and input specifications.

arxiv情報

著者 Changming Xu,Gagandeep Singh
発行日 2025-06-13 17:48:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Compression Aware Certified Training はコメントを受け付けていません

Spectral Estimation with Free Decompression

要約

非常に大きなマトリックスの固有値を計算することは、ログ決定、マトリックス関数の痕跡、およびその他の重要なメトリックの評価など、多​​くの機械学習アプリケーションで重要なタスクです。
データセットがスケールで成長し続けるにつれて、対応する共分散とカーネルマトリックスはますます大きくなり、しばしば直接形成を非現実的または不可能にする大きさに達します。
既存の手法は通常、マトリックススペクトルがうまく動作する場合、効率的な近似を提供できるマトリックスベクトル製品に依存しています。
ただし、分散学習などの設定では、マトリックスが間接的にのみ定義されている場合、完全なデータセットへのアクセスは、元のマトリックスの非常に小さなマトリックのみに制限できます。
これらの場合、名目上の関心のマトリックスは暗黙の演算子としても利用できません。つまり、マトリックスベクトル製品でさえ利用できない可能性があります。
このような設定では、マトリックスはマスクされたスナップショットのみにアクセスできるという意味で、「不可解」です。
自由確率理論から原則を利用して、そのようなマトリックスのスペクトルを推定するために「自由減圧」の新しい方法を導入します。
私たちの方法は、小さな亜類の経験的スペクトル密度から外挿するために、非常に大きな(不可解な)マトリックスの固有種を推測するために使用できます(完全なマトリックスベクトル製品で形成したり評価したりすることさえできません)。
一連の例を通じてこのアプローチの有効性を実証し、そのパフォーマンスを合成環境でのランダムマトリックス理論からの既知の制限分布と比較し、実際のデータセットのサブマトリックに適用し、それらを完全な経験的固有スペクトルと一致させます。

要約(オリジナル)

Computing eigenvalues of very large matrices is a critical task in many machine learning applications, including the evaluation of log-determinants, the trace of matrix functions, and other important metrics. As datasets continue to grow in scale, the corresponding covariance and kernel matrices become increasingly large, often reaching magnitudes that make their direct formation impractical or impossible. Existing techniques typically rely on matrix-vector products, which can provide efficient approximations, if the matrix spectrum behaves well. However, in settings like distributed learning, or when the matrix is defined only indirectly, access to the full data set can be restricted to only very small sub-matrices of the original matrix. In these cases, the matrix of nominal interest is not even available as an implicit operator, meaning that even matrix-vector products may not be available. In such settings, the matrix is ‘impalpable,’ in the sense that we have access to only masked snapshots of it. We draw on principles from free probability theory to introduce a novel method of ‘free decompression’ to estimate the spectrum of such matrices. Our method can be used to extrapolate from the empirical spectral densities of small submatrices to infer the eigenspectrum of extremely large (impalpable) matrices (that we cannot form or even evaluate with full matrix-vector products). We demonstrate the effectiveness of this approach through a series of examples, comparing its performance against known limiting distributions from random matrix theory in synthetic settings, as well as applying it to submatrices of real-world datasets, matching them with their full empirical eigenspectra.

arxiv情報

著者 Siavash Ameli,Chris van der Heide,Liam Hodgkinson,Michael W. Mahoney
発行日 2025-06-13 17:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA, stat.ML | Spectral Estimation with Free Decompression はコメントを受け付けていません

pLSTM: parallelizable Linear Source Transition Mark networks

要約

XLSTMやMambaなどの最新の再発アーキテクチャは、最近、言語モデリングの変圧器に挑戦しました。
ただし、その構造は、シーケンスのみへの適用性を制約するか、画像や分子グラフなどの多次元データ構造を事前に定義された順序で処理する必要があります。
対照的に、多次元RNN(MDRNNS)は、2Dグリッド、ツリー、監督された非環式グラフ(DAG)など、より高いレベル構造を持つデータに適しています。
この作業では、多次元の概念を線形RNNに拡張します。
一般的なDAGの線グラフに作用するソース、遷移、およびマークゲートを使用して、並列化可能な線形ソース遷移ネットワーク(PLSTMS)を導入します。
これにより、並行した連想スキャンと連続的な線形RNNの塊状回復型と類似した並列化が可能になりますが、DAGの場合。
画像などの通常のグリッド(1Dおよび2D)の場合、このスキームは、名誉操作、連結、および対数時間のパディングを使用して効率的に実装できます。
PLSTMSは、2つの異なるモードを介してDAGの長距離の消失/爆発のアクティベーション/勾配問題に取り組みます:指向伝播モード(Pモード)と拡散分布モード(Dモード)。
PLSTMの長距離機能を紹介するために、長距離の方向情報を含む合成コンピュータービジョンタスクとして矢印を指している外挿を導入します。
私たちは、PLSTMがより大きな画像サイズによく一般化するのに対し、トランスは外挿に苦労することを実証します。
確立された分子グラフとコンピュータービジョンベンチマークでは、PLSTMも強力なパフォーマンスを示しています。
コードとデータセットは、https://github.com/ml-jku/plstm_experimentsで入手できます。

要約(オリジナル)

Modern recurrent architectures, such as xLSTM and Mamba, have recently challenged the Transformer in language modeling. However, their structure constrains their applicability to sequences only or requires processing multi-dimensional data structures, such as images or molecular graphs, in a pre-defined sequential order. In contrast, Multi-Dimensional RNNs (MDRNNs) are well suited for data with a higher level structure, like 2D grids, trees, and directed acyclic graphs (DAGs). In this work, we extend the notion of multi-dimensionality to linear RNNs. We introduce parallelizable Linear Source Transition Mark networks (pLSTMs) using Source, Transition, and Mark gates that act on the line graph of a general DAG. This enables parallelization in analogy to parallel associative scans and the chunkwise-recurrent form of sequential linear RNNs, but for DAGs. For regular grids (1D and 2D), like images, this scheme can be efficiently implemented using einsum operations, concatenations, and padding in logarithmic time. pLSTMs tackle the vanishing/exploding activation/gradient problem for long distances in DAGs via two distinct modes: a directed propagation mode (P-mode) and a diffusive distribution mode (D-mode). To showcase the long-range capabilities of pLSTM, we introduce arrow-pointing extrapolation as a synthetic computer vision task that contains long-distance directional information. We demonstrate that pLSTMs generalize well to larger image sizes, whereas Transformers struggle to extrapolate. On established molecular graph and computer vision benchmarks, pLSTMs also show strong performance. Code and Datasets are available at: https://github.com/ml-jku/plstm_experiments.

arxiv情報

著者 Korbinian Pöppel,Richard Freinschlag,Thomas Schmied,Wei Lin,Sepp Hochreiter
発行日 2025-06-13 17:51:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | pLSTM: parallelizable Linear Source Transition Mark networks はコメントを受け付けていません

An Efficient Compression of Deep Neural Network Checkpoints Based on Prediction and Context Modeling

要約

このペーパーは、ニューラルネットワークトレーニングプロセス中にさまざまな段階で得られた重みとオプティマイザー状態(チェックポイントと呼ばれる)の効率的な圧縮に専念しています。
まず、予測ベースの圧縮アプローチを提案します。ここでは、以前に保存されたチェックポイントからの値が、算術コーディングのコンテキストモデリングに使用されます。
第二に、圧縮性能を向上させるために、チェックポイント値の剪定と量子化を適用することも提案します。
実験結果は、私たちのアプローチが大幅なビットサイズの削減を達成し、復元されたチェックポイントからの途切れないトレーニングの回復を可能にし、モデルのパフォーマンスを維持し、ストレージ制限環境に適していることを示しています。

要約(オリジナル)

This paper is dedicated to an efficient compression of weights and optimizer states (called checkpoints) obtained at different stages during a neural network training process. First, we propose a prediction-based compression approach, where values from the previously saved checkpoint are used for context modeling in arithmetic coding. Second, in order to enhance the compression performance, we also propose to apply pruning and quantization of the checkpoint values. Experimental results show that our approach achieves substantial bit size reduction, while enabling near-lossless training recovery from restored checkpoints, preserving the model’s performance and making it suitable for storage-limited environments.

arxiv情報

著者 Yuriy Kim,Evgeny Belyaev
発行日 2025-06-13 17:54:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | An Efficient Compression of Deep Neural Network Checkpoints Based on Prediction and Context Modeling はコメントを受け付けていません