-
最近の投稿
- Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning
- Whole-Body Dynamic Throwing with Legged Manipulators
- RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception
- Scalable Real2Sim: Physics-Aware Asset Generation Via Robotic Pick-and-Place Setups
- Temporal and Semantic Evaluation Metrics for Foundation Models in Post-Hoc Analysis of Robotic Sub-tasks
-
最近のコメント
表示できるコメントはありません。 cs.AI (35979) cs.CL (27216) cs.CR (2743) cs.CV (41827) cs.LG (40948) cs.RO (21216) cs.SY (3206) eess.IV (4914) eess.SY (3200) stat.ML (5368)
「90C40」カテゴリーアーカイブ
Non-maximizing policies that fulfill multi-criterion aspirations in expectation
要約 動的なプログラミングと強化学習では、確率的環境におけるエージェントの連続的 … 続きを読む
A Survey of Reinforcement Learning for Optimization in Automation
要約 Rehnection Learning(RL)は、自動化内で最適化の課題の … 続きを読む
Variational Sequential Optimal Experimental Design using Reinforcement Learning
要約 我々は、情報理論的基準を備えたベイジアンフレームワーク内で有限シーケンスの … 続きを読む
A Fisher-Rao gradient flow for entropy-regularised Markov decision processes in Polish spaces
要約 我々は、ポーランドの状態および行動空間を用いた無限地平線エントロピー正則化 … 続きを読む
Strongly-polynomial time and validation analysis of policy gradient methods
要約 この論文では、有限状態およびアクションのマルコフ決定プロセス (MDP) … 続きを読む
Achieving Exponential Asymptotic Optimality in Average-Reward Restless Bandits without Global Attractor Assumption
要約 無限の地平線の平均報酬の落ち着きのない盗賊問題を考えます。 我々は、アーム … 続きを読む
Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits
要約 我々は、離散時間における無限地平の平均報酬型レストレス・バンディット問題を … 続きを読む
Active Inference Tree Search in Large POMDPs
要約 事前に効率的に計画を立てる能力は、生物と人工システムの両方にとって重要です … 続きを読む
Non-maximizing policies that fulfill multi-criterion aspirations in expectation
要約 動的計画法と強化学習では、確率的環境におけるエージェントの逐次的な意思決定 … 続きを読む
Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits
要約 無限の地平線、平均報酬の落ち着きのない盗賊問題を離散時間で考察します。 私 … 続きを読む