Disentangling Total-Variance and Signal-to-Noise-Ratio Improves Diffusion Models

要約

拡散モデルの長いサンプリング時間は、重要なボトルネックのままであり、拡散時間ステップの数を減らすことで緩和できます。
ただし、ステップが少ないサンプルの品質は、ノイズスケジュール、つまり、ノイズが導入され、各ステップで信号が低下する特定の方法に大きく依存します。
以前の作業は、元の分散と分散抽出スケジュールを改善しましたが、これらのアプローチ$ \ textit {受動的に} $は、それを直接制御することなく、全体の分散を調整します。
この作業では、テレビとSNRを独立して制御できる新しいトータルバリケーション/シグナルからノイズへのレイティオ(TV/SNR)フレームワークを提案します。
私たちのアプローチは、同じSNRスケジュールを維持しながら一定のテレビスケジュールを採用することにより、テレビが指数関数的に爆発するスケジュールを指数関数的に改善できることを明らかにしています。
さらに、最適な輸送フローのSNRスケジュールを一致させると、生成パフォーマンスが大幅に向上します。
私たちの調査結果は、分子構造や画像生成を含む、さまざまな逆拡散ソルバーと多様なアプリケーションを介して保持されます。

要約(オリジナル)

The long sampling time of diffusion models remains a significant bottleneck, which can be mitigated by reducing the number of diffusion time steps. However, the quality of samples with fewer steps is highly dependent on the noise schedule, i.e., the specific manner in which noise is introduced and the signal is reduced at each step. Although prior work has improved upon the original variance-preserving and variance-exploding schedules, these approaches $\textit{passively}$ adjust the total variance, without direct control over it. In this work, we propose a novel total-variance/signal-to-noise-ratio disentangled (TV/SNR) framework, where TV and SNR can be controlled independently. Our approach reveals that schedules where the TV explodes exponentially can often be improved by adopting a constant TV schedule while preserving the same SNR schedule. Furthermore, generalizing the SNR schedule of the optimal transport flow matching significantly improves the generation performance. Our findings hold across various reverse diffusion solvers and diverse applications, including molecular structure and image generation.

arxiv情報

著者 Khaled Kahouli,Winfried Ripken,Stefan Gugler,Oliver T. Unke,Klaus-Robert Müller,Shinichi Nakajima
発行日 2025-06-02 10:48:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Disentangling Total-Variance and Signal-to-Noise-Ratio Improves Diffusion Models はコメントを受け付けていません

Efficient Generative Modeling with Residual Vector Quantization-Based Tokens

要約

高速サンプリングを備えた高忠実度生成のための効率的な残差ベクトル量子化(RVQ)ベースの生成モデルであるResgenを紹介します。
RVQは、深さと呼ばれる量子化ステップの数を増やすことでデータの忠実度を向上させますが、より深い量子化は通常、生成モデルの推論ステップを増加させます。
これに対処するために、Resgenは個々のトークンではなく、集合トークンのベクトル埋め込みを直接予測し、推論ステップがRVQの深さから独立したままであることを保証します。
さらに、個別の拡散と変分推論を使用して、確率的フレームワーク内でトークンマスキングとマルチトークン予測を策定します。
さまざまなモダリティにわたる2つの挑戦的なタスクで提案された方法の有効性と一般化可能性を検証します:Imagenet 256×256の条件付き画像生成とゼロショットテキストツースピック合成。
実験結果は、Resgenが両方のタスクで自己回帰のカウンターパートを上回ることを示しており、サンプリング速度を損なうことなく優れたパフォーマンスを提供します。
さらに、RVQの深さをスケーリングすると、生成モデルは、同様のサイズのベースラインモデルと比較して、生成の忠実度またはより速いサンプリング速度を示します。

要約(オリジナル)

We introduce ResGen, an efficient Residual Vector Quantization (RVQ)-based generative model for high-fidelity generation with fast sampling. RVQ improves data fidelity by increasing the number of quantization steps, referred to as depth, but deeper quantization typically increases inference steps in generative models. To address this, ResGen directly predicts the vector embedding of collective tokens rather than individual ones, ensuring that inference steps remain independent of RVQ depth. Additionally, we formulate token masking and multi-token prediction within a probabilistic framework using discrete diffusion and variational inference. We validate the efficacy and generalizability of the proposed method on two challenging tasks across different modalities: conditional image generation on ImageNet 256×256 and zero-shot text-to-speech synthesis. Experimental results demonstrate that ResGen outperforms autoregressive counterparts in both tasks, delivering superior performance without compromising sampling speed. Furthermore, as we scale the depth of RVQ, our generative models exhibit enhanced generation fidelity or faster sampling speeds compared to similarly sized baseline models.

arxiv情報

著者 Jaehyeon Kim,Taehong Moon,Keon Lee,Jaewoong Cho
発行日 2025-06-02 11:03:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Efficient Generative Modeling with Residual Vector Quantization-Based Tokens はコメントを受け付けていません

JFlow: Model-Independent Spherical Jeans Analysis using Equivariant Continuous Normalizing Flows

要約

ドワーフスフェロイド銀河の星の運動学は、暗黒物質ハローの構造を理解するために研究されています。
ただし、これらの星の運動学的情報は、多くの場合、天の位置と視線の速度に限定されており、完全な位相空間分析が困難になっています。
従来の方法は、いくつかのパラメーターを備えた予測分析位相空間密度モデルに依存し、球状のジーンズ方程式を解くことにより暗黒物質ハロー構造を推測します。
このホワイトペーパーでは、球形のスフェロイド銀河のモデル非依存分析に向けた最初のステップとして、モデルに依存しない方法で球状のジーンズ方程式を解くための監視されていない機械学習方法を紹介します。
等量の連続正規化フローを使用して、モデルの仮定なしでは球体対称星の位相空間密度と速度分散液が推定できることを実証します。
概念実証として、球状モデルのGaiaチャレンジデータセットに方法を適用し、与えられた速度異方性プロファイルの暗黒物質の質量密度を測定します。
私たちの方法は、少数のトレーサー星でさえ、ハロー構造を正確に識別することができます。

要約(オリジナル)

The kinematics of stars in dwarf spheroidal galaxies have been studied to understand the structure of dark matter halos. However, the kinematic information of these stars is often limited to celestial positions and line-of-sight velocities, making full phase space analysis challenging. Conventional methods rely on projected analytic phase space density models with several parameters and infer dark matter halo structures by solving the spherical Jeans equation. In this paper, we introduce an unsupervised machine learning method for solving the spherical Jeans equation in a model-independent way as a first step toward model-independent analysis of dwarf spheroidal galaxies. Using equivariant continuous normalizing flows, we demonstrate that spherically symmetric stellar phase space densities and velocity dispersions can be estimated without model assumptions. As a proof of concept, we apply our method to Gaia challenge datasets for spherical models and measure dark matter mass densities for given velocity anisotropy profiles. Our method can identify halo structures accurately, even with a small number of tracer stars.

arxiv情報

著者 Sung Hak Lim,Kohei Hayashi,Shun’ichi Horigome,Shigeki Matsumoto,Mihoko M. Nojiri
発行日 2025-06-02 11:11:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.CO, astro-ph.GA, cs.LG, hep-ex, hep-ph | JFlow: Model-Independent Spherical Jeans Analysis using Equivariant Continuous Normalizing Flows はコメントを受け付けていません

Generalized Bayesian deep reinforcement learning

要約

ベイジアン強化学習(BRL)は、ベイジアン統計と強化学習からの原則をマージして、不確実な環境で最適な決定を下す方法です。
モデルベースのRLメソッドとして、2つの重要なコンポーネントがあります。(1)データ生成プロセス(DGP)のモデルの事後分布と(2)学習後のポリシー学習。
マルコフ依存を想定して、深い生成モデルを通じて未知の環境のダイナミクスをモデル化することを提案します。
これらのモデルの尤度関数がない場合、一般化された予測シーケンシャル(または初期的な)スコアリングルール(SR)後部を学習してトレーニングします。
シーケンシャルモンテカルロ(SMC)サンプラーを使用して、この一般化されたベイジアン後部分布からサンプルを描画しました。
併せて、ニューラルネットワークの高次元パラメーター空間でスケーラビリティを実現するために、SMC内のグラデーションベースのマルコフカーネルを使用します。
事後前のスコアリングルールの使用を正当化するために、バーンスタインボンミーゼスタイプの定理を証明します。
ポリシー学習のために、予想されるトンプソンサンプリング(ETS)を提案して、事後分布に関する期待値関数を最大化することにより、最適なポリシーを学習します。
これにより、従来のトンプソンサンプリング(TS)とその拡張が改善され、後部分布から描かれたサンプルが1つだけ使用されます。
この改善は、理論的にも、離散アクション空間を想定してシミュレーション研究を使用して研究されています。
最後に、理論的保証なしで継続的なアクションスペースで挑戦的な問題のためのセットアップを拡張しました。

要約(オリジナル)

Bayesian reinforcement learning (BRL) is a method that merges principles from Bayesian statistics and reinforcement learning to make optimal decisions in uncertain environments. As a model-based RL method, it has two key components: (1) inferring the posterior distribution of the model for the data-generating process (DGP) and (2) policy learning using the learned posterior. We propose to model the dynamics of the unknown environment through deep generative models, assuming Markov dependence. In the absence of likelihood functions for these models, we train them by learning a generalized predictive-sequential (or prequential) scoring rule (SR) posterior. We used sequential Monte Carlo (SMC) samplers to draw samples from this generalized Bayesian posterior distribution. In conjunction, to achieve scalability in the high-dimensional parameter space of the neural networks, we use the gradient-based Markov kernels within SMC. To justify the use of the prequential scoring rule posterior, we prove a Bernstein-von Mises-type theorem. For policy learning, we propose expected Thompson sampling (ETS) to learn the optimal policy by maximising the expected value function with respect to the posterior distribution. This improves upon traditional Thompson sampling (TS) and its extensions, which utilize only one sample drawn from the posterior distribution. This improvement is studied both theoretically and using simulation studies, assuming a discrete action space. Finally, we successfully extended our setup for a challenging problem with a continuous action space without theoretical guarantees.

arxiv情報

著者 Shreya Sinha Roy,Richard G. Everitt,Christian P. Robert,Ritabrata Dutta
発行日 2025-06-02 11:22:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML | Generalized Bayesian deep reinforcement learning はコメントを受け付けていません

Random Policy Evaluation Uncovers Policies of Generative Flow Networks

要約

生成フローネットワーク(Gflownet)は、エージェントが確率論的ポリシーを学習し、フロー機能を非正規化された報酬関数に比例してオブジェクトをサンプリングする確率的フレームワークです。
多くの最近の研究では、GflownetsとMaximum Entropy(Maxent)RLとの関係を調査しました。これは、エントロピー正規化された目的を学習することにより、RLエージェントの標準的な目的を変更します。
ただし、GflownetsとStandard RLの関係は、順次の意思決定の性質に固有の類似性にもかかわらず、ほとんど未開拓のままです。
Gflownetsは、特殊なフローマッチング目標を通じて多様なソリューションを発見できますが、それらを接続することで、確立されたRL原則を通じて実装を簡素化し、RLの多様なソリューション発見機能を改善できます。
この論文では、Gflownetsと1つのRLの最も基本的なコンポーネントであるポリシー評価との根本的なつながりを明らかにすることにより、このギャップを埋めます。
驚くべきことに、均一なポリシーの評価から得られた値関数は、特定の構造条件下でのフローイテレーションのレンズを介したGflownetsのフロー関数と密接に関連していることがわかります。
これらの洞察に基づいて、修正されたランダムポリシー評価(RPE)アルゴリズムを導入します。これは、これらのケースで固定されたランダムポリシーを単純に評価し、新しい視点を提供することに基づいてGflownetsと同じ報酬マッチング効果を達成します。
大規模なベンチマーク全体の経験的結果は、RPEが以前のアプローチと比較して競争結果を達成することを示しており、以前に見落とされていた(非標準)RLとGflownetsの間のつながりに光を当てています。

要約(オリジナル)

The Generative Flow Network (GFlowNet) is a probabilistic framework in which an agent learns a stochastic policy and flow functions to sample objects proportionally to an unnormalized reward function. A number of recent works explored connections between GFlowNets and maximum entropy (MaxEnt) RL, which modifies the standard objective of RL agents by learning an entropy-regularized objective. However, the relationship between GFlowNets and standard RL remains largely unexplored, despite the inherent similarities in their sequential decision-making nature. While GFlowNets can discover diverse solutions through specialized flow-matching objectives, connecting them can simplify their implementation through established RL principles and improve RL’s diverse solution discovery capabilities. In this paper, we bridge this gap by revealing a fundamental connection between GFlowNets and one RL’s most basic components — policy evaluation. Surprisingly, we find that the value function obtained from evaluating a uniform policy is closely associated with the flow functions in GFlowNets through the lens of flow iteration under certain structural conditions. Building upon these insights, we introduce a rectified random policy evaluation (RPE) algorithm, which achieves the same reward-matching effect as GFlowNets based on simply evaluating a fixed random policy in these cases, offering a new perspective. Empirical results across extensive benchmarks demonstrate that RPE achieves competitive results compared to previous approaches, shedding light on the previously overlooked connection between (non-MaxEnt) RL and GFlowNets.

arxiv情報

著者 Haoran He,Emmanuel Bengio,Qingpeng Cai,Ling Pan
発行日 2025-06-02 11:26:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Random Policy Evaluation Uncovers Policies of Generative Flow Networks はコメントを受け付けていません

Zero-Shot Temporal Resolution Domain Adaptation for Spiking Neural Networks

要約

スパイクニューラルネットワーク(SNN)は、生物学的にインスパイアされた深いニューラルネットワークであり、一時的な情報を効率的に抽出しながら、神経モモーフィックデバイスに展開したときのエネルギー効率と潜時の点で有望な利益を提供します。
ただし、SNNモデルのパラメーターは時間分解能に敏感であり、特にエッジで微調整が不可能な場合、トレーニングに使用される展開前のソースデータとエッジのターゲットデータの時間分解能が同じではない場合、大幅なパフォーマンス低下につながります。
この課題に対処するために、ターゲットの時間分解度を再トレーニングすることなく、時間分解能の変化を説明するためにニューロンパラメーターを適応させるための3つの新しいドメイン適応方法を提案します。
提案された方法は、SNNSのニューロンダイナミクスと状態空間モデル(SSM)のマッピングに基づいています。
一般的なニューロンモデルに適用できます。
時空間データタスクの下で提案されたメソッド、つまりオーディオキーワードスポッティングデータセットSHDとMSWC、および画像分類nminstデータセットを評価します。
当社の方法は、時定数を単純に拡大する既存の参照方法に代わるものと、大部分のケースの代替品を提供します。
さらに、我々の結果は、より低い時間分解能データとモデル適応に関する時間効率の良いトレーニングによって、高い時間分解能データの高精度が得られることを示しています。

要約(オリジナル)

Spiking Neural Networks (SNNs) are biologically-inspired deep neural networks that efficiently extract temporal information while offering promising gains in terms of energy efficiency and latency when deployed on neuromorphic devices. However, SNN model parameters are sensitive to temporal resolution, leading to significant performance drops when the temporal resolution of target data at the edge is not the same with that of the pre-deployment source data used for training, especially when fine-tuning is not possible at the edge. To address this challenge, we propose three novel domain adaptation methods for adapting neuron parameters to account for the change in time resolution without re-training on target time-resolution. The proposed methods are based on a mapping between neuron dynamics in SNNs and State Space Models (SSMs); and are applicable to general neuron models. We evaluate the proposed methods under spatio-temporal data tasks, namely the audio keyword spotting datasets SHD and MSWC as well as the image classification NMINST dataset. Our methods provide an alternative to – and in majority of the cases significantly outperform – the existing reference method that simply scales the time constant. Moreover, our results show that high accuracy on high temporal resolution data can be obtained by time efficient training on lower temporal resolution data and model adaptation.

arxiv情報

著者 Sanja Karilanova,Maxime Fabre,Emre Neftci,Ayça Özçelikkale
発行日 2025-06-02 11:28:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Zero-Shot Temporal Resolution Domain Adaptation for Spiking Neural Networks はコメントを受け付けていません

Neuroplastic Expansion in Deep Reinforcement Learning

要約

生物学的脳における神経経路の凝固に類似した学習剤の可塑性の喪失は、その非定常性のために補強学習の学習と適応を著しく妨げます。
この根本的な課題に対処するために、認知科学の皮質拡大に触発された、{\ it Neuroplastic拡大}(NE)(NE)を提案します。
NEは、ネットワークをより小さな初期サイズから完全な次元に動的に成長させることにより、トレーニングプロセス全体で学習性と適応性を維持します。
私たちの方法は、(\ textit {1})潜在的な勾配に基づく弾性トポロジの生成、(\ textit {2})ナットワーク表現性を最適化するための休眠ニューロン剪定、および(\ textit {3})ニューロンの統合を介した経験レビューを介して、可塑性安定性のバランスをとることを介した(\ textit {3})ニューロンの統合の3つの重要なコンポーネントで設計されています。
広範な実験は、NEが可塑性の喪失を効果的に軽減し、ムホコとディープマインドコントロールスイート環境のさまざまなタスクにわたって最先端の方法を上回ることを示しています。
NEは、複雑で動的な環境でより適応的な学習を可能にします。これは、静的で1回限りのトレーニングパラダイムからより柔軟で継続的な適応モデルへの深い強化学習を移行するための重要なステップを表しています。

要約(オリジナル)

The loss of plasticity in learning agents, analogous to the solidification of neural pathways in biological brains, significantly impedes learning and adaptation in reinforcement learning due to its non-stationary nature. To address this fundamental challenge, we propose a novel approach, {\it Neuroplastic Expansion} (NE), inspired by cortical expansion in cognitive science. NE maintains learnability and adaptability throughout the entire training process by dynamically growing the network from a smaller initial size to its full dimension. Our method is designed with three key components: (\textit{1}) elastic topology generation based on potential gradients, (\textit{2}) dormant neuron pruning to optimize network expressivity, and (\textit{3}) neuron consolidation via experience review to strike a balance in the plasticity-stability dilemma. Extensive experiments demonstrate that NE effectively mitigates plasticity loss and outperforms state-of-the-art methods across various tasks in MuJoCo and DeepMind Control Suite environments. NE enables more adaptive learning in complex, dynamic environments, which represents a crucial step towards transitioning deep reinforcement learning from static, one-time training paradigms to more flexible, continually adapting models.

arxiv情報

著者 Jiashun Liu,Johan Obando-Ceron,Aaron Courville,Ling Pan
発行日 2025-06-02 12:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Neuroplastic Expansion in Deep Reinforcement Learning はコメントを受け付けていません

LoRACode: LoRA Adapters for Code Embeddings

要約

セマンティックコード検索には、コード埋め込みが不可欠です。
ただし、現在のアプローチは、コードに固有の正確な構文およびコンテキストニュアンスをキャプチャするのに苦労しています。
CodebertやUnixCoderなどのオープンソースモデルは、スケーラビリティと効率の制限を示しますが、高性能の独自のシステムはかなりの計算コストを課します。
コード検索用のタスク固有のアダプターを構築するために、低ランク適応(LORA)に基づいたパラメーター効率の高い微調整方法を導入します。
私たちのアプローチは、トレーニング可能なパラメーターの数を基本モデルの2%未満に減らし、広範なコードコーパス(2つのH100 GPUで25分で200万サンプル)で迅速に微調整できるようにします。
実験では、Code2Code検索の平均相互ランク(MRR)が最大9.1%増加し、複数のプログラミング言語にわたってText2Code検索タスクで最大86.69%増加します。
タスクごとのおよび言語ごとの適応の区別は、構文的および言語的バリエーションのコード検索の感度を探るのに役立ちます。
この分野で研究を促進するために、コードと事前に訓練されたモデルを公開しています。

要約(オリジナル)

Code embeddings are essential for semantic code search; however, current approaches often struggle to capture the precise syntactic and contextual nuances inherent in code. Open-source models such as CodeBERT and UniXcoder exhibit limitations in scalability and efficiency, while high-performing proprietary systems impose substantial computational costs. We introduce a parameter-efficient fine-tuning method based on Low-Rank Adaptation (LoRA) to construct task-specific adapters for code retrieval. Our approach reduces the number of trainable parameters to less than two percent of the base model, enabling rapid fine-tuning on extensive code corpora (2 million samples in 25 minutes on two H100 GPUs). Experiments demonstrate an increase of up to 9.1% in Mean Reciprocal Rank (MRR) for Code2Code search, and up to 86.69% for Text2Code search tasks across multiple programming languages. Distinction in task-wise and language-wise adaptation helps explore the sensitivity of code retrieval for syntactical and linguistic variations. To foster research in this area, we make our code and pre-trained models publicly available.

arxiv情報

著者 Saumya Chaturvedi,Aman Chadha,Laurent Bindschaedler
発行日 2025-06-02 12:19:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG, cs.SE | LoRACode: LoRA Adapters for Code Embeddings はコメントを受け付けていません

Inverse Q-Learning Done Right: Offline Imitation Learning in $Q^π$-Realizable MDPs

要約

マルコフ決定プロセス(MDP)におけるオフライン模倣学習の問題を研究します。ここでは、専門家のポリシーによって生成された状態アクションペアのデータセットを考慮して、パフォーマンスの良いポリシーを学習することです。
専門家が既知のポリシーの扱いやすいクラスに属していると仮定するこのトピックに関する最近の作業ラインを補完することで、この問題に新しい角度からアプローチし、環境に関する異なるタイプの構造的仮定を活用します。
具体的には、線形$ q^\ pi $ -realizable mdpsのクラスについては、サドルポイントオフライン模倣学習(\ sail)と呼ばれる新しいアルゴリズムを紹介します。
さらに、この結果は、注文$ \ mathcal {o}(\ varepsilon^{-4})$のより悪いサンプルの複雑さを犠牲にして、おそらく非線形$ q^\ pi $ -realizable mdpsに拡張します。
Finally, our analysis suggests a new loss function for training critic networks from expert data in deep imitation learning.
標準的なベンチマークの経験的評価は、\ waitのニューラルネットの実装が行動のクローン化よりも優れており、最先端のアルゴリズムと競合することを示しています。

要約(オリジナル)

We study the problem of offline imitation learning in Markov decision processes (MDPs), where the goal is to learn a well-performing policy given a dataset of state-action pairs generated by an expert policy. Complementing a recent line of work on this topic that assumes the expert belongs to a tractable class of known policies, we approach this problem from a new angle and leverage a different type of structural assumption about the environment. Specifically, for the class of linear $Q^\pi$-realizable MDPs, we introduce a new algorithm called saddle-point offline imitation learning (\SPOIL), which is guaranteed to match the performance of any expert up to an additive error $\varepsilon$ with access to $\mathcal{O}(\varepsilon^{-2})$ samples. Moreover, we extend this result to possibly non-linear $Q^\pi$-realizable MDPs at the cost of a worse sample complexity of order $\mathcal{O}(\varepsilon^{-4})$. Finally, our analysis suggests a new loss function for training critic networks from expert data in deep imitation learning. Empirical evaluations on standard benchmarks demonstrate that the neural net implementation of \SPOIL is superior to behavior cloning and competitive with state-of-the-art algorithms.

arxiv情報

著者 Antoine Moulin,Gergely Neu,Luca Viano
発行日 2025-06-02 13:30:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Inverse Q-Learning Done Right: Offline Imitation Learning in $Q^π$-Realizable MDPs はコメントを受け付けていません

Automating Versatile Time-Series Analysis with Tiny Transformers on Embedded FPGAs

要約

トランスベースのモデルは、多様な時系列タスクで強力なパフォーマンスを示していますが、リソース制約のあるデバイスへの展開は、高いメモリと計算需要のために依然として困難です。
マイクロコントローラーユニット(MCU)をターゲットとする以前の作業は、ハードウェア固有の最適化を調査していますが、そのようなアプローチはしばしばタスク固有であり、8ビット固定点精度に制限されています。
フィールドプログラム可能なゲートアレイ(FPGA)は、より柔軟性を高め、データの精度とアーキテクチャをきめんゆか制御できます。
ただし、既存のFPGAベースのトランスの展開時間シリーズ分析は、通常、手動構成を備えた高密度プラットフォームに焦点を当てています。
このペーパーでは、埋め込まれたFPGA上の小さな変圧器用の統一された完全に自動化された展開フレームワークを紹介します。
当社のフレームワークは、3つの代表的な時系列タスク(予測、分類、および異常検出)にわたるコンパクトエンコーダのみのトランスアーキテクチャをサポートしています。
量子化対象のトレーニング(4ビットまで)、オプトナを使用したハードウェア対応ハイパーパラメーター検索、およびシームレスな展開のための自動VHDL生成を組み合わせます。
2つの組み込みFPGAプラットフォームにまたがる6つのパブリックデータセットでフレームワークを評価します。
結果は、我々のフレームワークが、AMD Spartan-7のミリ秒レイテンシで推論あたり0.033 MJの低いタスク固有の変圧器アクセラレータを生成すると同時に、ラティスICE40の展開の実現可能性に関する洞察を提供することを示しています。
すべてのソースコードは、githubリポジトリ(https://github.com/edwina1030/tinytransformer4ts)でリリースされます。

要約(オリジナル)

Transformer-based models have shown strong performance across diverse time-series tasks, but their deployment on resource-constrained devices remains challenging due to high memory and computational demand. While prior work targeting Microcontroller Units (MCUs) has explored hardware-specific optimizations, such approaches are often task-specific and limited to 8-bit fixed-point precision. Field-Programmable Gate Arrays (FPGAs) offer greater flexibility, enabling fine-grained control over data precision and architecture. However, existing FPGA-based deployments of Transformers for time-series analysis typically focus on high-density platforms with manual configuration. This paper presents a unified and fully automated deployment framework for Tiny Transformers on embedded FPGAs. Our framework supports a compact encoder-only Transformer architecture across three representative time-series tasks (forecasting, classification, and anomaly detection). It combines quantization-aware training (down to 4 bits), hardware-aware hyperparameter search using Optuna, and automatic VHDL generation for seamless deployment. We evaluate our framework on six public datasets across two embedded FPGA platforms. Results show that our framework produces integer-only, task-specific Transformer accelerators achieving as low as 0.033 mJ per inference with millisecond latency on AMD Spartan-7, while also providing insights into deployment feasibility on Lattice iCE40. All source code will be released in the GitHub repository (https://github.com/Edwina1030/TinyTransformer4TS).

arxiv情報

著者 Tianheng Ling,Chao Qian,Lukas Johannes Haßler,Gregor Schiele
発行日 2025-06-02 13:38:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Automating Versatile Time-Series Analysis with Tiny Transformers on Embedded FPGAs はコメントを受け付けていません