SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning

要約

深さと光の流れの推定、同時ローカリゼーションとマッピング(SLAM)、および自動制御などのロボット認識と制御タスクを実行するニューラルネットワークの能力により、近年、広範囲にわたる採用が行われました。
ディープ補強学習は、監視された学習に関連する持続不可能なトレーニングコストがないため、これらの設定で広く使用されています。
ただし、DeepRLはサンプル効率が低いことに苦しんでいます。つまり、許容可能なソリューションに収束するには、多数の環境相互作用が必要です。
深いQ学習やこの欠点を改善しようとするソフトな俳優と批判的な試みなどの最新のRLアルゴリズムは、自律的なロボット工学などのアプリケーションに必要な説明可能性を提供することはできません。
人間は、ロボット工学によく見られる長年のホリゾンの連続タスクを直感的に理解しています。
このような直感を適切に使用すると、RLポリシーがサンプルの効率を高めながら、より説明しやすくなります。
この作業では、確率的グラフィカルモデル(PGM)を使用して人間の直感をエンコードし、ディープRLトレーニングパイプラインで使用してサンプル効率を高めるための新しいフレームワークであるシャイアを提案します。
私たちのフレームワークは、無視できる間接費で評価する環境全体で25〜78%のサンプル効率の向上を達成します。
さらに、RLエージェントにエンコードされた基本的な行動を教えることにより、シャイアは政策の説明可能性を高めます。
実際のデモンストレーションは、フレームワークを使用して訓練されたポリシーの有効性をさらに強調しています。

要約(オリジナル)

The ability of neural networks to perform robotic perception and control tasks such as depth and optical flow estimation, simultaneous localization and mapping (SLAM), and automatic control has led to their widespread adoption in recent years. Deep Reinforcement Learning has been used extensively in these settings, as it does not have the unsustainable training costs associated with supervised learning. However, DeepRL suffers from poor sample efficiency, i.e., it requires a large number of environmental interactions to converge to an acceptable solution. Modern RL algorithms such as Deep Q Learning and Soft Actor-Critic attempt to remedy this shortcoming but can not provide the explainability required in applications such as autonomous robotics. Humans intuitively understand the long-time-horizon sequential tasks common in robotics. Properly using such intuition can make RL policies more explainable while enhancing their sample efficiency. In this work, we propose SHIRE, a novel framework for encoding human intuition using Probabilistic Graphical Models (PGMs) and using it in the Deep RL training pipeline to enhance sample efficiency. Our framework achieves 25-78% sample efficiency gains across the environments we evaluate at negligible overhead cost. Additionally, by teaching RL agents the encoded elementary behavior, SHIRE enhances policy explainability. A real-world demonstration further highlights the efficacy of policies trained using our framework.

arxiv情報

著者 Amogh Joshi,Adarsh Kumar Kosta,Kaushik Roy
発行日 2025-03-19 15:04:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, cs.RO | SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning はコメントを受け付けていません

A sharp uniform-in-time error estimate for Stochastic Gradient Langevin Dynamics

要約

確率的勾配Langevin Dynamics(SGLD)の鋭い均一な時間エラー推定値を確立します。これは、広く使用されているサンプリングアルゴリズムです。
軽度の仮定の下で、SGLD反復とランジュビン拡散の間のkl-divergenceに均一な時間$ o(\ eta^2)$ $を取得します。ここで、$ \ eta $はステップサイズ(または学習率)です。
分析は、さまざまなステップサイズにも有効です。
したがって、SGLD反復の不変測定値とランジュビン拡散の間の距離にバインドされた$ o(\ eta)$を導き出すことができます。
私たちの結果は、関連文献のSGLDの既存の分析と比較して、大幅な改善と見なすことができます。

要約(オリジナル)

We establish a sharp uniform-in-time error estimate for the Stochastic Gradient Langevin Dynamics (SGLD), which is a widely-used sampling algorithm. Under mild assumptions, we obtain a uniform-in-time $O(\eta^2)$ bound for the KL-divergence between the SGLD iteration and the Langevin diffusion, where $\eta$ is the step size (or learning rate). Our analysis is also valid for varying step sizes. Consequently, we are able to derive an $O(\eta)$ bound for the distance between the invariant measures of the SGLD iteration and the Langevin diffusion, in terms of Wasserstein or total variation distances. Our result can be viewed as a significant improvement compared with existing analysis for SGLD in related literature.

arxiv情報

著者 Lei Li,Yuliang Wang
発行日 2025-03-19 15:14:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 60H30, 65C20, 68Q25, cs.LG, math.PR, stat.ML | A sharp uniform-in-time error estimate for Stochastic Gradient Langevin Dynamics はコメントを受け付けていません

Borsuk-Ulam and Replicable Learning of Large-Margin Halfspaces

要約

学習理論における最近の進歩により、総概念については、複製可能性、グローバルな安定性、差別的にプライベートな(DP)学習性、共有ランダム性の複製性が、リトルストーンの次元の有限性と正確に一致することが確立されています。
部分的な概念クラスでも同じことができますか?
私たちは、リトルストーンの寸法を制限し、純粋にDP-Learnableであり、高次元でも共有ランダム性である大きなマージンハーフスペースクラスを研究することにより、この質問に答えます。
$ \ gamma $ -marginの半スペースのリストの複製可能性数は\ [\ frac {d} {2} + 1 \ le \ mathrm {lr}(h _ {\ gamma}^d)\ le d、\]を満たしていることを証明します。
これにより、部分的な概念に対する驚くべき分離が明らかになります。リストの複製可能性とグローバルな安定性は、境界のあるリトルストーンの寸法、DPの学習性、または共有ランダム性の複製可能性から続きません。
主要な定理を適用することにより、次の未解決の問題にも答えます。
– 総概念クラスへの無限の次元の大規模なマージンハーフスペースの曖昧性を乱していることは、無限のリトルストーンの次元に、Alon et al。
(Focs ’21)。
– $ d $ -dimensionaleuclidean Spaceのポイントの最大値と均一な半分スペースの最大リスト複製数は$ d $であり、Chase et al。の問題を解決することを証明します。
(Focs ’23)。
– 大きなギャップ体制におけるギャップハミング距離問題の曖昧性を乱していることは、公開されていない公共のランダム化された通信の複雑さを持っていることを証明します。
これは、Fang et alの未解決の問題に答えます。
(STOC ’25)。
Chase et al。
(STOC ’24)。
上限については、クロスポリトープの特定の三角測量とSVMの一般化特性に関する最近の結果に依存する学習ルールを設計します。

要約(オリジナル)

Recent advances in learning theory have established that, for total concepts, list replicability, global stability, differentially private (DP) learnability, and shared-randomness replicability coincide precisely with the finiteness of the Littlestone dimension. Does the same hold for partial concept classes? We answer this question by studying the large-margin half-spaces class, which has bounded Littlestone dimension and is purely DP-learnable and shared-randomness replicable even in high dimensions. We prove that the list replicability number of $\gamma$-margin half-spaces satisfies \[ \frac{d}{2} + 1 \le \mathrm{LR}(H_{\gamma}^d) \le d, \] which increases with the dimension $d$. This reveals a surprising separation for partial concepts: list replicability and global stability do not follow from bounded Littlestone dimension, DP-learnability, or shared-randomness replicability. By applying our main theorem, we also answer the following open problems. – We prove that any disambiguation of an infinite-dimensional large-margin half-space to a total concept class has unbounded Littlestone dimension, answering an open question of Alon et al. (FOCS ’21). – We prove that the maximum list-replicability number of any *finite* set of points and homogeneous half-spaces in $d$-dimensional Euclidean space is $d$, resolving a problem of Chase et al. (FOCS ’23). – We prove that any disambiguation of the Gap Hamming Distance problem in the large gap regime has unbounded public-coin randomized communication complexity. This answers an open problem of Fang et al. (STOC ’25). We prove the lower bound via a topological argument involving the local Borsuk-Ulam theorem of Chase et al. (STOC ’24). For the upper bound, we design a learning rule that relies on certain triangulations of the cross-polytope and recent results on the generalization properties of SVM.

arxiv情報

著者 Ari Blondal,Hamed Hatami,Pooya Hatami,Chavdar Lalov,Sivan Tretiak
発行日 2025-03-19 15:17:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Borsuk-Ulam and Replicable Learning of Large-Margin Halfspaces はコメントを受け付けていません

Robustness of Nonlinear Representation Learning

要約

私たちは、わずかに誤解された設定で監視されていない表現学習の問題を研究し、したがって、非線形表現学習の堅牢性の研究を形式化します。
混合が適切な距離で局所アイソメトリーに近い場合に焦点を当て、既存の剛性結果に基づいて、混合が線形変換と小さなエラーまで識別できることを示します。
2番目のステップでは、$ x = f(s)= as+h(s)$に従って生成された観測値を使用して、独立したコンポーネント分析(ICA)を調査します。
マトリックス$ a $と独立したコンポーネントをほぼ回復できることを示します。
一緒に、これらの2つの結果は、ほぼ等尺性混合関数を備えた非線形ICAのおおよその識別可能性を示しています。
これらの結果は、制限されたモデルクラスに従わない実際のデータの監視されていない表現学習の識別可能性の結果に向けたステップです。

要約(オリジナル)

We study the problem of unsupervised representation learning in slightly misspecified settings, and thus formalize the study of robustness of nonlinear representation learning. We focus on the case where the mixing is close to a local isometry in a suitable distance and show based on existing rigidity results that the mixing can be identified up to linear transformations and small errors. In a second step, we investigate Independent Component Analysis (ICA) with observations generated according to $x=f(s)=As+h(s)$ where $A$ is an invertible mixing matrix and $h$ a small perturbation. We show that we can approximately recover the matrix $A$ and the independent components. Together, these two results show approximate identifiability of nonlinear ICA with almost isometric mixing functions. Those results are a step towards identifiability results for unsupervised representation learning for real-world data that do not follow restrictive model classes.

arxiv情報

著者 Simon Buchholz,Bernhard Schölkopf
発行日 2025-03-19 15:57:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Robustness of Nonlinear Representation Learning はコメントを受け付けていません

FedBEns: One-Shot Federated Learning based on Bayesian Ensemble

要約

One-Shot Federated Learning(FL)は、複数のクライアントが中央サーバーとの1ラウンドの通信でグローバルモデルを協力的に学習できるようにする最近のパラダイムです。
この論文では、ベイジアン推論のレンズを介したワンショットFLの問題を分析し、FedBensを提案します。これは、ローカル損失関数の固有のマルチモダリティを活用してより良いグローバルモデルを見つけるアルゴリズムです。
当社のアルゴリズムは、クライアントのローカルポステリオルのラプラス近似の混合を活用し、サーバーがグローバルモデルを推測するために集約します。
さまざまなデータセットで広範な実験を実施し、提案された方法が通常、局所損失の単峰性近似に依存する競合するベースラインよりも優れていることを示しています。

要約(オリジナル)

One-Shot Federated Learning (FL) is a recent paradigm that enables multiple clients to cooperatively learn a global model in a single round of communication with a central server. In this paper, we analyze the One-Shot FL problem through the lens of Bayesian inference and propose FedBEns, an algorithm that leverages the inherent multimodality of local loss functions to find better global models. Our algorithm leverages a mixture of Laplace approximations for the clients’ local posteriors, which the server then aggregates to infer the global model. We conduct extensive experiments on various datasets, demonstrating that the proposed method outperforms competing baselines that typically rely on unimodal approximations of the local losses.

arxiv情報

著者 Jacopo Talpini,Marco Savi,Giovanni Neglia
発行日 2025-03-19 16:05:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | FedBEns: One-Shot Federated Learning based on Bayesian Ensemble はコメントを受け付けていません

Online Imitation Learning for Manipulation via Decaying Relative Correction through Teleoperation

要約

テレオティー付きロボットマニピュレーターは、模倣学習を通じて制御ポリシーをトレーニングするために使用できるデモデータの収集を可能にします。
ただし、このような方法では、堅牢なポリシーを開発したり、新しいタスクや目に見えないタスクに適応するために、かなりの量のトレーニングデータが必要になる場合があります。
専門家のフィードバックはポリシーのパフォーマンスを大幅に向上させることができますが、継続的なフィードバックを提供することは、専門家にとって認知的に要求が厳しく、時間がかかります。
この課題に対処するために、ポリシーモデルによって生成された軌跡に対して6度の自由度を備えた空間的修正を提供できるケーブル駆動型の遠隔操作システムを使用することを提案します。
具体的には、専門家によって提供され、一時的に存在し、専門家が必要とする介入手順を減らす空間オフセットベクトルに基づく、減衰相対補正(DRC)と呼ばれる修正方法を提案します。
我々の結果は、DRCが必要な専門家の介入率を標準的な絶対修正方法と比較して30 \%減少させることを示しています。
さらに、DRCをオンライン模倣学習フレームワーク内に統合することで、ラズベリーの収穫や布の拭き取りなどの操作タスクの成功率が急速に向上することを示しています。

要約(オリジナル)

Teleoperated robotic manipulators enable the collection of demonstration data, which can be used to train control policies through imitation learning. However, such methods can require significant amounts of training data to develop robust policies or adapt them to new and unseen tasks. While expert feedback can significantly enhance policy performance, providing continuous feedback can be cognitively demanding and time-consuming for experts. To address this challenge, we propose to use a cable-driven teleoperation system which can provide spatial corrections with 6 degree of freedom to the trajectories generated by a policy model. Specifically, we propose a correction method termed Decaying Relative Correction (DRC) which is based upon the spatial offset vector provided by the expert and exists temporarily, and which reduces the intervention steps required by an expert. Our results demonstrate that DRC reduces the required expert intervention rate by 30\% compared to a standard absolute corrective method. Furthermore, we show that integrating DRC within an online imitation learning framework rapidly increases the success rate of manipulation tasks such as raspberry harvesting and cloth wiping.

arxiv情報

著者 Cheng Pan,Hung Hon Cheng,Josie Hughes
発行日 2025-03-19 16:06:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Online Imitation Learning for Manipulation via Decaying Relative Correction through Teleoperation はコメントを受け付けていません

Geometrically-Aware One-Shot Skill Transfer of Category-Level Objects

要約

新しい環境でのなじみのないオブジェクトのロボット操作は困難であり、広範なトレーニングまたは面倒な事前プログラミングが必要です。
新しいスキル転送フレームワークを提案します。これにより、ロボットは複雑なオブジェクト操作スキルと単一の人間のデモから制約を転送できます。
私たちのアプローチは、オブジェクト中心の相互作用に焦点を当てたデモから幾何学的表現を導き出すことにより、スキルの獲得とタスクの実行の課題に対処します。
関数マップ(FM)フレームワークを活用することにより、オブジェクトとその環境間の相互作用関数を効率的にマッピングし、ロボットが類似のトポロジまたはカテゴリのオブジェクト全体でタスク操作を複製できるようにします。
さらに、この方法には、タスクスペース模倣アルゴリズム(TSIA)が組み込まれており、滑らかで幾何学的に認識されたロボットパスを生成して、転送されたスキルが実証されたタスクの制約に準拠していることを確認します。
広範な実験を通じてアプローチの有効性と適応性を検証し、追加のトレーニングを必要とせずに、多様な現実世界環境でのスキル移転とタスクの実行が成功したことを示しています。

要約(オリジナル)

Robotic manipulation of unfamiliar objects in new environments is challenging and requires extensive training or laborious pre-programming. We propose a new skill transfer framework, which enables a robot to transfer complex object manipulation skills and constraints from a single human demonstration. Our approach addresses the challenge of skill acquisition and task execution by deriving geometric representations from demonstrations focusing on object-centric interactions. By leveraging the Functional Maps (FM) framework, we efficiently map interaction functions between objects and their environments, allowing the robot to replicate task operations across objects of similar topologies or categories, even when they have significantly different shapes. Additionally, our method incorporates a Task-Space Imitation Algorithm (TSIA) which generates smooth, geometrically-aware robot paths to ensure the transferred skills adhere to the demonstrated task constraints. We validate the effectiveness and adaptability of our approach through extensive experiments, demonstrating successful skill transfer and task execution in diverse real-world environments without requiring additional training.

arxiv情報

著者 Cristiana de Farias,Luis Figueredo,Riddhiman Laha,Maxime Adjigble,Brahim Tamadazte,Rustam Stolkin,Sami Haddadin,Naresh Marturi
発行日 2025-03-19 16:10:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Geometrically-Aware One-Shot Skill Transfer of Category-Level Objects はコメントを受け付けていません

Weighted-Sum of Gaussian Process Latent Variable Models

要約

この作業は、信号が潜在変数によって異なる場合がある信号分離に対するベイジアンノンパラメトリックアプローチを開発します。
私たちの重要な貢献は、各データポイントがいくつかの入力位置で観察される既知の数の純粋なコンポーネント信号の加重合計を含む場合、ガウスプロセス潜在変数モデル(GPLVM)を強化することです。
私たちのフレームワークにより、信号の任意の非線形変動が可能になり、合計から1つなどの線形重みに有用な事前に組み込むことができます。
当社の貢献は、分光法に特に関連しており、条件の変化により、基礎となる純粋なコンポーネント信号がサンプルごとに異なる場合があります。
分光法と他のドメインの両方への適用性を実証するために、さまざまな温度を持つ近赤外分光法データセット、パイプを介した流れ構成を識別するためのシミュレートされたデータセット、およびその反射から岩のタイプを決定するためのデータセットをいくつかの用途を検討します。

要約(オリジナル)

This work develops a Bayesian non-parametric approach to signal separation where the signals may vary according to latent variables. Our key contribution is to augment Gaussian Process Latent Variable Models (GPLVMs) for the case where each data point comprises the weighted sum of a known number of pure component signals, observed across several input locations. Our framework allows arbitrary non-linear variations in the signals while being able to incorporate useful priors for the linear weights, such as summing-to-one. Our contributions are particularly relevant to spectroscopy, where changing conditions may cause the underlying pure component signals to vary from sample to sample. To demonstrate the applicability to both spectroscopy and other domains, we consider several applications: a near-infrared spectroscopy dataset with varying temperatures, a simulated dataset for identifying flow configuration through a pipe, and a dataset for determining the type of rock from its reflectance.

arxiv情報

著者 James Odgers,Ruby Sedgwick,Chrysoula Kappatou,Ruth Misener,Sarah Filippi
発行日 2025-03-19 16:25:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Weighted-Sum of Gaussian Process Latent Variable Models はコメントを受け付けていません

HQNN-FSP: A Hybrid Classical-Quantum Neural Network for Regression-Based Financial Stock Market Prediction

要約

金融の時系列予測は、複雑な時間的依存と市場の変動のために、依然として困難な作業です。
この研究では、機能表現と学習を改善するための量子リソースを活用することにより、金融動向の予測を支援するハイブリッド量子クラシックアプローチの可能性を調査します。
カスタムQuantum Neural Network(QNN)Regressorが導入され、金融アプリケーションに合わせた新しいAnsatzで設計されています。
2つのハイブリッド最適化戦略が提案されています。(1)古典的な再発モデル(RNN/LSTM)が量子処理前に時間依存性を抽出する連続的なアプローチ、および(2)同時に古典的および量子パラメーターを最適化する共同学習フレームワーク。
Timeeriessplit、K-fold Cross-validation、およびPredictive Error Analysisを使用した系統的評価は、これらのハイブリッドモデルが量子コンピューティングを財務予測ワークフローに統合する能力を強調しています。
調査結果は、量子支援学習が財務モデリングにどのように貢献できるかを示しており、時系列分析における量子資源の実用的な役割に関する洞察を提供します。

要約(オリジナル)

Financial time-series forecasting remains a challenging task due to complex temporal dependencies and market fluctuations. This study explores the potential of hybrid quantum-classical approaches to assist in financial trend prediction by leveraging quantum resources for improved feature representation and learning. A custom Quantum Neural Network (QNN) regressor is introduced, designed with a novel ansatz tailored for financial applications. Two hybrid optimization strategies are proposed: (1) a sequential approach where classical recurrent models (RNN/LSTM) extract temporal dependencies before quantum processing, and (2) a joint learning framework that optimizes classical and quantum parameters simultaneously. Systematic evaluation using TimeSeriesSplit, k-fold cross-validation, and predictive error analysis highlights the ability of these hybrid models to integrate quantum computing into financial forecasting workflows. The findings demonstrate how quantum-assisted learning can contribute to financial modeling, offering insights into the practical role of quantum resources in time-series analysis.

arxiv情報

著者 Prashant Kumar Choudhary,Nouhaila Innan,Muhammad Shafique,Rajeev Singh
発行日 2025-03-19 16:44:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-fin.ST, quant-ph | HQNN-FSP: A Hybrid Classical-Quantum Neural Network for Regression-Based Financial Stock Market Prediction はコメントを受け付けていません

Exploiting Prior Knowledge in Preferential Learning of Individualized Autonomous Vehicle Driving Styles

要約

自動化された車両の軌道計画は、一般に、動く地平線(モデル予測制御)にわたって最適化を採用しています。コスト関数は、結果として生じる運転スタイルに大きく影響します。
ただし、乗客が好む運転スタイルをもたらす適切なコスト関数を見つけることは、継続的な課題のままです。
私たちは、乗客の好みを繰り返し照会することにより、コスト関数を学習するために優先的なベイジアンの最適化を採用しています。
パラメーター空間の次元が増加するため、優先学習アプローチは、限られた数の実験で適切な最適なものを見つけるのに苦労し、パラメーター空間を探索するときに乗客を不快感にさらします。
優先的なベイジアン最適化フレームワークに事前知識を組み込むことにより、これらの課題に対処します。
私たちの方法は、パラメーターサンプリングをガイドするために、実際の人間の運転データから仮想意思決定者を構築します。
シミュレーション実験では、既存の優先的なベイジアン最適化アプローチと比較して、以前の知識情報に基づいた学習手順のより速い収束を実現し、サンプリングされた運転スタイルの不十分なスタイルの数を減らします。

要約(オリジナル)

Trajectory planning for automated vehicles commonly employs optimization over a moving horizon – Model Predictive Control – where the cost function critically influences the resulting driving style. However, finding a suitable cost function that results in a driving style preferred by passengers remains an ongoing challenge. We employ preferential Bayesian optimization to learn the cost function by iteratively querying a passenger’s preference. Due to increasing dimensionality of the parameter space, preference learning approaches might struggle to find a suitable optimum with a limited number of experiments and expose the passenger to discomfort when exploring the parameter space. We address these challenges by incorporating prior knowledge into the preferential Bayesian optimization framework. Our method constructs a virtual decision maker from real-world human driving data to guide parameter sampling. In a simulation experiment, we achieve faster convergence of the prior-knowledge-informed learning procedure compared to existing preferential Bayesian optimization approaches and reduce the number of inadequate driving styles sampled.

arxiv情報

著者 Lukas Theiner,Sebastian Hirt,Alexander Steinke,Rolf Findeisen
発行日 2025-03-19 16:47:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY | Exploiting Prior Knowledge in Preferential Learning of Individualized Autonomous Vehicle Driving Styles はコメントを受け付けていません