Client Selection for Federated Policy Optimization with Environment Heterogeneity

要約

政策反復(Policy Iteration: PI)の発展は、強化学習(Reinforcement Learning: RL)の最近のアルゴリズムに多くのインスピレーションを与えてきた。PIの理論は集中学習の文脈では豊富であるが、連合環境下での研究はまだ始まったばかりである。本論文では、近似PI(API)の連合型バージョンを調査し、環境の不均一性によってもたらされる近似誤差を考慮して、その誤差境界を導出する。適切なクライアント選択スキームにより、この誤差境界を低減できることを理論的に証明する。この理論結果に基づき、環境の不均一性によって生じる付加的な近似誤差を緩和するためのクライアント選択アルゴリズムを提案する。実験の結果、提案アルゴリズムは、母集団分布から異質性の低いクライアントを効果的に選択することで、連合山岳車問題、Mujoco Hopper問題、SUMOに基づく自律走行車訓練問題において、他の偏りや不偏のクライアント選択手法を凌駕することが示された。

要約(オリジナル)

The development of Policy Iteration (PI) has inspired many recent algorithms for Reinforcement Learning (RL), including several policy gradient methods that gained both theoretical soundness and empirical success on a variety of tasks. The theory of PI is rich in the context of centralized learning, but its study under the federated setting is still in the infant stage. This paper investigates the federated version of Approximate PI (API) and derives its error bound, taking into account the approximation error introduced by environment heterogeneity. We theoretically prove that a proper client selection scheme can reduce this error bound. Based on the theoretical result, we propose a client selection algorithm to alleviate the additional approximation error caused by environment heterogeneity. Experiment results show that the proposed algorithm outperforms other biased and unbiased client selection methods on the federated mountain car problem, the Mujoco Hopper problem, and the SUMO-based autonomous vehicle training problem by effectively selecting clients with a lower level of heterogeneity from the population distribution.

arxiv情報

著者 Zhijie Xie,S. H. Song
発行日 2025-05-02 14:33:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Client Selection for Federated Policy Optimization with Environment Heterogeneity はコメントを受け付けていません

Model See Model Do: Speech-Driven Facial Animation with Style Control

要約

音声駆動型3D顔アニメーションは、バーチャルアバター、ゲーム、デジタルコンテンツ制作などのアプリケーションで重要な役割を果たしています。既存の手法は、正確な口唇同期を実現し、基本的な感情表現を生成することでは大きな進歩を遂げているが、ニュアンスのある演技スタイルをキャプチャし、効果的に転送することに苦労することが多い。我々は、潜在拡散モデルを参照スタイルクリップに条件付けすることで、表現力が高く、時間的に首尾一貫したフェイシャルアニメーションを生成する、新しい例ベースの生成フレームワークを提案する。スタイルリファレンスに正確に従うという課題に対処するため、スタイルベースと呼ばれる新しい条件付けメカニズムを導入する。これは、リファレンスから主要なポーズを抽出し、リップ同期の品質を損なうことなくスタイルに適合するように拡散生成プロセスを加法的に導く。このアプローチにより、生成されたアニメーションが入力音声と密接に一致することを保証しながら、モデルが微妙な文体の手がかりを捉えることを可能にする。この手法は、様々なスピーチシナリオにおいて、優れた口唇同期を達成しながら、希望するスタイルを忠実に再現する有効性を、広範な定性的、定量的、知覚的評価により実証している。

要約(オリジナル)

Speech-driven 3D facial animation plays a key role in applications such as virtual avatars, gaming, and digital content creation. While existing methods have made significant progress in achieving accurate lip synchronization and generating basic emotional expressions, they often struggle to capture and effectively transfer nuanced performance styles. We propose a novel example-based generation framework that conditions a latent diffusion model on a reference style clip to produce highly expressive and temporally coherent facial animations. To address the challenge of accurately adhering to the style reference, we introduce a novel conditioning mechanism called style basis, which extracts key poses from the reference and additively guides the diffusion generation process to fit the style without compromising lip synchronization quality. This approach enables the model to capture subtle stylistic cues while ensuring that the generated animations align closely with the input speech. Extensive qualitative, quantitative, and perceptual evaluations demonstrate the effectiveness of our method in faithfully reproducing the desired style while achieving superior lip synchronization across various speech scenarios.

arxiv情報

著者 Yifang Pan,Karan Singh,Luiz Gustavo Hafemann
発行日 2025-05-02 14:47:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.GR, cs.LG, I.3.7 | Model See Model Do: Speech-Driven Facial Animation with Style Control はコメントを受け付けていません

Integration of Multi-Mode Preference into Home Energy Management System Using Deep Reinforcement Learning

要約

家庭用エネルギー管理システム(HEMS)は、エネルギー効率を高め、コストを削減し、ユーザーの快適性を向上させることを目的とした、スマートホームエコシステムにおける極めて重要なツールとして登場した。家庭のエネルギー消費のインテリジェントな制御と最適化を可能にすることで、HEMSは消費者のニーズとエネルギー・ユーティリティの目標とのギャップを埋める重要な役割を果たしている。しかし、既存の文献の多くは、消費者の快適性を標準的な家電製品の設定からの単なる逸脱として解釈している。このような偏差は、通常、静的な重み付け係数によって最適化目標に組み込まれます。これらの要素は、消費者の行動や嗜好の動的な性質を見落としていることが多い。この見落としに対処するため、本稿では、消費者が定義した動的な嗜好に基づいて最適化するように綿密に設計された、マルチモードの深層強化学習ベースのHEMS(DRL-HEMS)フレームワークを紹介する。我々の主な目的は、個々の家電製品に合わせた動的なマルチモード嗜好を組み込むことで、需要応答(DR)プログラムへの消費者の関与を強化することである。本研究では、モデルフリーの単一エージェントDRLアルゴリズムを活用し、動的なだけでなくユーザーフレンドリーなHEMSフレームワークを実現します。その有効性を検証するために、電気料金、周囲温度、家電製品の消費電力などの指標を含む15分間隔の実世界データを採用した。その結果、このモデルは、さまざまな嗜好モードにおけるエネルギー消費の最適化において、非常に優れた性能を発揮することがわかった。さらに、混合整数線形計画法(MILP)に基づく従来のアルゴリズムと比較した場合、我々のモデルは、計算効率で勝る一方で、ほぼ最適な性能を達成している。

要約(オリジナル)

Home Energy Management Systems (HEMS) have emerged as a pivotal tool in the smart home ecosystem, aiming to enhance energy efficiency, reduce costs, and improve user comfort. By enabling intelligent control and optimization of household energy consumption, HEMS plays a significant role in bridging the gap between consumer needs and energy utility objectives. However, much of the existing literature construes consumer comfort as a mere deviation from the standard appliance settings. Such deviations are typically incorporated into optimization objectives via static weighting factors. These factors often overlook the dynamic nature of consumer behaviors and preferences. Addressing this oversight, our paper introduces a multi-mode Deep Reinforcement Learning-based HEMS (DRL-HEMS) framework, meticulously designed to optimize based on dynamic, consumer-defined preferences. Our primary goal is to augment consumer involvement in Demand Response (DR) programs by embedding dynamic multi-mode preferences tailored to individual appliances. In this study, we leverage a model-free, single-agent DRL algorithm to deliver a HEMS framework that is not only dynamic but also user-friendly. To validate its efficacy, we employed real-world data at 15-minute intervals, including metrics such as electricity price, ambient temperature, and appliances’ power consumption. Our results show that the model performs exceptionally well in optimizing energy consumption within different preference modes. Furthermore, when compared to traditional algorithms based on Mixed-Integer Linear Programming (MILP), our model achieves nearly optimal performance while outperforming in computational efficiency.

arxiv情報

著者 Mohammed Sumayli,Olugbenga Moses Anubi
発行日 2025-05-02 15:05:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.SY, eess.SY, stat.AP | Integration of Multi-Mode Preference into Home Energy Management System Using Deep Reinforcement Learning はコメントを受け付けていません

Enhancing Diversity in Parallel Agents: A Maximum State Entropy Exploration Story

要約

並列データ収集は強化学習(RL)を再定義し、前例のない効率性を解き放ち、大規模な実世界アプリケーションのブレークスルーを後押ししている。このパラダイムでは、$N$個の同一のエージェントが$N$個の環境シミュレータの複製で動作し、データ収集を$N$倍に加速する。重要な疑問が生じる:\並列エージェントのポリシーを特殊化することが、$N$倍の高速化の鍵を握っているのか?本論文では、並列環境において収集データのエントロピーを最大化する新しい学習フレームワークを紹介する。我々のアプローチは、個々のエージェントのエントロピーとエージェント間の多様性のバランスを注意深くとり、冗長性を効果的に最小化する。後者の考え方は中央集権的な政策勾配法を用いて実装されており、同一のエージェントからなるシステムに対して経験的に評価したところ、データの多様性を利用できるバッチRL技術との相乗効果も期待できることが示された。最後に、特殊な並列サンプリング分布の方が高速であることを示す独自の濃度分析を提供する。

要約(オリジナル)

Parallel data collection has redefined Reinforcement Learning (RL), unlocking unprecedented efficiency and powering breakthroughs in large-scale real-world applications. In this paradigm, $N$ identical agents operate in $N$ replicas of an environment simulator, accelerating data collection by a factor of $N$. A critical question arises: \textit{Does specializing the policies of the parallel agents hold the key to surpass the $N$ factor acceleration?} In this paper, we introduce a novel learning framework that maximizes the entropy of collected data in a parallel setting. Our approach carefully balances the entropy of individual agents with inter-agent diversity, effectively minimizing redundancies. The latter idea is implemented with a centralized policy gradient method, which shows promise when evaluated empirically against systems of identical agents, as well as synergy with batch RL techniques that can exploit data diversity. Finally, we provide an original concentration analysis that shows faster rates for specialized parallel sampling distributions, which supports our methodology and may be of independent interest.

arxiv情報

著者 Vincenzo De Paola,Riccardo Zamboni,Mirco Mutti,Marcello Restelli
発行日 2025-05-02 15:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Enhancing Diversity in Parallel Agents: A Maximum State Entropy Exploration Story はコメントを受け付けていません

How much to Dereverberate? Low-Latency Single-Channel Speech Enhancement in Distant Microphone Scenarios

要約

残響除去は、信号の明瞭度と品質を向上させる音声強調(SE)の重要なサブタスクである。しかし、残響は信号と高い相関があるため、依然として困難です。さらに、シングルチャンネルSEに関する文献は、短い残響時間(通常1秒以下)、小さな部屋(1000立方メートル以下)、比較的短い距離(最大2メートル)の部屋に焦点を当てています。本論文では、5mから10mといった遠距離のマイクロホンを想定し、会議室や劇場など、部屋の大きさや残響時間が大きい場所でのリアルタイムの低遅延シングルチャンネルSEを探求する。このような設定は、講義の実演、ドラマ、舞台音響の向上などの用途に有用である。第一に、このような困難なシナリオにおけるシングルチャンネルSEが実現可能であることを示す。次に、部屋の音量と残響時間の関係を調べ、部屋のインパルス応答をランダムにシミュレートする際の重要性を示します。最後に、短い残響時間で残響を除去する場合、部屋の伝達関数を減衰させる前に初期反射を保存することで、全体的な信号品質が向上することを示します。

要約(オリジナル)

Dereverberation is an important sub-task of Speech Enhancement (SE) to improve the signal’s intelligibility and quality. However, it remains challenging because the reverberation is highly correlated with the signal. Furthermore, the single-channel SE literature has predominantly focused on rooms with short reverb times (typically under 1 second), smaller rooms (under volumes of 1000 cubic meters) and relatively short distances (up to 2 meters). In this paper, we explore real-time low-latency single-channel SE under distant microphone scenarios, such as 5 to 10 meters, and focus on conference rooms and theatres, with larger room dimensions and reverberation times. Such a setup is useful for applications such as lecture demonstrations, drama, and to enhance stage acoustics. First, we show that single-channel SE in such challenging scenarios is feasible. Second, we investigate the relationship between room volume and reverberation time, and demonstrate its importance when randomly simulating room impulse responses. Lastly, we show that for dereverberation with short decay times, preserving early reflections before decaying the transfer function of the room improves overall signal quality.

arxiv情報

著者 Satvik Venkatesh,Philip Coleman,Arthur Benilov,Simon Brown,Selim Sheta,Frederic Roskam
発行日 2025-05-02 15:09:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.SD, eess.AS, I.5.1 | How much to Dereverberate? Low-Latency Single-Channel Speech Enhancement in Distant Microphone Scenarios はコメントを受け付けていません

How to Learn a Star: Binary Classification with Starshaped Polyhedral Sets

要約

我々は、連続区分的な一次関数のクラスに限定した二値分類を考察する。我々は、これらの関数クラスの表現力を調べ、2つの損失関数(0/1-損失(離散損失)および指数損失関数)の組み合わせ論的および幾何学的な損失地形構造、特にサブレベル集合を記述する。特に、このモデルのVC次元について明示的な境界を与え、離散損失のサブレベル集合を超平面配置の部屋として具体的に記述する。指数損失については、最適値が一意であるための十分条件を与え、基礎となる指数確率分布の率パラメータを変化させたときの最適値の形状を記述する。

要約(オリジナル)

We consider binary classification restricted to a class of continuous piecewise linear functions whose decision boundaries are (possibly nonconvex) starshaped polyhedral sets, supported on a fixed polyhedral simplicial fan. We investigate the expressivity of these function classes and describe the combinatorial and geometric structure of the loss landscape, most prominently the sublevel sets, for two loss-functions: the 0/1-loss (discrete loss) and an exponential loss function. In particular, we give explicit bounds on the VC dimension of this model, and concretely describe the sublevel sets of the discrete loss as chambers in a hyperplane arrangement. For the exponential loss, we give sufficient conditions for the optimum to be unique, and describe the geometry of the optimum when varying the rate parameter of the underlying exponential probability distribution.

arxiv情報

著者 Marie-Charlotte Brandenburg,Katharina Jochemko
発行日 2025-05-02 15:33:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DM, cs.LG, math.CO, math.MG | How to Learn a Star: Binary Classification with Starshaped Polyhedral Sets はコメントを受け付けていません

Learning Stabilizing Policies via an Unstable Subspace Representation

要約

線形時不変(LTI)システムの安定化学習(LTS)の問題を研究する。制御のための政策勾配(PG)法は、初期安定化政策へのアクセスを前提としている。しかし、未知のシステムに対してそのようなポリシーを設計することは、制御における最も基本的な問題の一つであり、最適なポリシーを学習することと同じくらい難しいかもしれない。LTS問題に対する既存の研究は、アンビエント次元が2次関数的にスケールするため、大規模なデータを必要とする。我々は、まずシステムの左不安定部分空間を学習し、次に学習した不安定部分空間上で一連の割引線形2次レギュレータ(LQR)問題を解くという2段階のアプローチを提案する。両フェーズにおいて非漸近的な保証を提供し、不安定部分空間上で動作することによりサンプルの複雑さが減少することを示す。特に、不安定モードの数が状態次元よりもはるかに小さい場合、我々の解析により、不安定部分空間上でのLTSが安定化プロセスを大幅に高速化することが明らかになった。数値実験により、本アプローチによるサンプル複雑度の低減を裏づける。

要約(オリジナル)

We study the problem of learning to stabilize (LTS) a linear time-invariant (LTI) system. Policy gradient (PG) methods for control assume access to an initial stabilizing policy. However, designing such a policy for an unknown system is one of the most fundamental problems in control, and it may be as hard as learning the optimal policy itself. Existing work on the LTS problem requires large data as it scales quadratically with the ambient dimension. We propose a two-phase approach that first learns the left unstable subspace of the system and then solves a series of discounted linear quadratic regulator (LQR) problems on the learned unstable subspace, targeting to stabilize only the system’s unstable dynamics and reduce the effective dimension of the control space. We provide non-asymptotic guarantees for both phases and demonstrate that operating on the unstable subspace reduces sample complexity. In particular, when the number of unstable modes is much smaller than the state dimension, our analysis reveals that LTS on the unstable subspace substantially speeds up the stabilization process. Numerical experiments are provided to support this sample complexity reduction achieved by our approach.

arxiv情報

著者 Leonardo F. Toso,Lintao Ye,James Anderson
発行日 2025-05-02 15:34:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Learning Stabilizing Policies via an Unstable Subspace Representation はコメントを受け付けていません

Stabilizing Temporal Difference Learning via Implicit Stochastic Approximation

要約

時間差(TD)学習は、強化学習(RL)における基礎的なアルゴリズムである。40年近くにわたり、TD学習は応用RLの主力として、またより複雑で特殊なアルゴリズムの構築ブロックとして機能してきた。しかし、広く使われているにもかかわらず、欠点がないわけではない。ステップサイズの選択を誤ると、推定値の誤差が劇的に増大し、収束が遅くなる。その結果、実際には、研究者は適切なステップサイズを特定するために試行錯誤を繰り返さなければならない。これに代わるものとして、我々はTD更新を固定小数点方程式に再定式化する暗黙的TDアルゴリズムを提案する。これらの更新は、計算効率を犠牲にすることなく、より安定で、ステップサイズの影響を受けにくい。さらに、我々の理論解析により、漸近収束保証と有限時間誤差境界を確立する。我々の結果は、最新のRLタスクに対する頑健性と実用性を実証し、暗黙的TDが政策評価と値近似のための汎用的なツールであることを立証する。

要約(オリジナル)

Temporal Difference (TD) learning is a foundational algorithm in reinforcement learning (RL). For nearly forty years, TD learning has served as a workhorse for applied RL as well as a building block for more complex and specialized algorithms. However, despite its widespread use, it is not without drawbacks, the most prominent being its sensitivity to step size. A poor choice of step size can dramatically inflate the error of value estimates and slow convergence. Consequently, in practice, researchers must use trial and error in order to identify a suitable step size — a process that can be tedious and time consuming. As an alternative, we propose implicit TD algorithms that reformulate TD updates into fixed-point equations. These updates are more stable and less sensitive to step size without sacrificing computational efficiency. Moreover, our theoretical analysis establishes asymptotic convergence guarantees and finite-time error bounds. Our results demonstrate their robustness and practicality for modern RL tasks, establishing implicit TD as a versatile tool for policy evaluation and value approximation.

arxiv情報

著者 Hwanwoo Kim,Panos Toulis,Eric Laber
発行日 2025-05-02 15:57:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.PR, stat.ML | Stabilizing Temporal Difference Learning via Implicit Stochastic Approximation はコメントを受け付けていません

chebgreen: Learning and Interpolating Continuous Empirical Green’s Functions from Data

要約

本研究では、制御パラメータを持ち、支配偏微分方程式が未知である1次元システムを数学的にモデル化するための、メッシュに依存しないデータ駆動型ライブラリchebgreenを紹介する。提案する手法は、関連するが隠れた境界値問題に対する経験的グリーン関数を、有理ニューラルネットワークの形で学習し、そこからチェビシェフ基底の2変量表現を構築する。適切なライブラリ内の左特異関数と右特異関数を、準マトリックスの多様体上の点として表現し、関連する特異値をラグランジュ多項式で補間することで、未知の制御パラメータ値におけるグリーン関数を明らかにします。

要約(オリジナル)

In this work, we present a mesh-independent, data-driven library, chebgreen, to mathematically model one-dimensional systems, possessing an associated control parameter, and whose governing partial differential equation is unknown. The proposed method learns an Empirical Green’s Function for the associated, but hidden, boundary value problem, in the form of a Rational Neural Network from which we subsequently construct a bivariate representation in a Chebyshev basis. We uncover the Green’s function, at an unseen control parameter value, by interpolating the left and right singular functions within a suitable library, expressed as points on a manifold of Quasimatrices, while the associated singular values are interpolated with Lagrange polynomials.

arxiv情報

著者 Harshwardhan Praveen,Jacob Brown,Christopher Earls
発行日 2025-05-02 16:42:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.NA, math.NA | chebgreen: Learning and Interpolating Continuous Empirical Green’s Functions from Data はコメントを受け付けていません

Provable Efficiency of Guidance in Diffusion Models for General Data Distribution

要約

拡散モデルは生成モデリングの強力なフレームワークとして登場し、ガイダンス技術はサンプルの質を高める上で重要な役割を果たしている。経験的な成功にもかかわらず、ガイダンス効果の包括的な理論的理解はまだ限られている。既存の研究は、各クラスに条件付けされた分布が等方的なガウス分布であるか、いくつかの特別な条件付きで一次元区間上にサポートされるケーススタディにのみ焦点を当てている。このようなケーススタディを越えてガイダンス効果をどのように分析するかは未解決の問題である。このギャップを埋めるために、我々は一般的なデータ分布の下での拡散ガイダンスの分析を試みる。分布によっては成立しない一様な標本品質の向上を示すのではなく、ガイダンスの存在によって分類器確率の平均逆数が減少するという意味で、ガイダンスが標本品質全体を向上させることを証明する。これはガイダンスを導入する動機と一致する。

要約(オリジナル)

Diffusion models have emerged as a powerful framework for generative modeling, with guidance techniques playing a crucial role in enhancing sample quality. Despite their empirical success, a comprehensive theoretical understanding of the guidance effect remains limited. Existing studies only focus on case studies, where the distribution conditioned on each class is either isotropic Gaussian or supported on a one-dimensional interval with some extra conditions. How to analyze the guidance effect beyond these case studies remains an open question. Towards closing this gap, we make an attempt to analyze diffusion guidance under general data distributions. Rather than demonstrating uniform sample quality improvement, which does not hold in some distributions, we prove that guidance can improve the whole sample quality, in the sense that the average reciprocal of the classifier probability decreases with the existence of guidance. This aligns with the motivation of introducing guidance.

arxiv情報

著者 Gen Li,Yuchen Jiao
発行日 2025-05-02 16:46:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | Provable Efficiency of Guidance in Diffusion Models for General Data Distribution はコメントを受け付けていません