-
最近の投稿
- Adaptive Target Localization under Uncertainty using Multi-Agent Deep Reinforcement Learning with Knowledge Transfer
- Factor Graph-Based Active SLAM for Spacecraft Proximity Operations
- VIEW: Visual Imitation Learning with Waypoints
- Front Hair Styling Robot System Using Path Planning for Root-Centric Strand Adjustment
- Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling
-
最近のコメント
表示できるコメントはありません。 cs.AI (32521) cs.CL (24587) cs.CR (2516) cs.CV (38727) cs.LG (37397) cs.RO (18958) cs.SY (2900) eess.IV (4641) eess.SY (2894) stat.ML (4935)
「90C40」カテゴリーアーカイブ
Variational Sequential Optimal Experimental Design using Reinforcement Learning
要約 我々は、情報理論的基準を備えたベイジアンフレームワーク内で有限シーケンスの … 続きを読む
A Fisher-Rao gradient flow for entropy-regularised Markov decision processes in Polish spaces
要約 我々は、ポーランドの状態および行動空間を用いた無限地平線エントロピー正則化 … 続きを読む
Strongly-polynomial time and validation analysis of policy gradient methods
要約 この論文では、有限状態およびアクションのマルコフ決定プロセス (MDP) … 続きを読む
Achieving Exponential Asymptotic Optimality in Average-Reward Restless Bandits without Global Attractor Assumption
要約 無限の地平線の平均報酬の落ち着きのない盗賊問題を考えます。 我々は、アーム … 続きを読む
Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits
要約 我々は、離散時間における無限地平の平均報酬型レストレス・バンディット問題を … 続きを読む
Active Inference Tree Search in Large POMDPs
要約 事前に効率的に計画を立てる能力は、生物と人工システムの両方にとって重要です … 続きを読む
Non-maximizing policies that fulfill multi-criterion aspirations in expectation
要約 動的計画法と強化学習では、確率的環境におけるエージェントの逐次的な意思決定 … 続きを読む
Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits
要約 無限の地平線、平均報酬の落ち着きのない盗賊問題を離散時間で考察します。 私 … 続きを読む
Restless Bandits with Average Reward: Breaking the Uniform Global Attractor Assumption
要約 離散時間設定と連続時間設定の両方で、平均報酬基準を使用して無限地平線の落ち … 続きを読む
A Fisher-Rao gradient flow for entropy-regularised Markov decision processes in Polish spaces
要約 我々は、ポーランドの状態と行動空間を用いた無限地平線エントロピー正則化マル … 続きを読む