「90C40」カテゴリーアーカイブ

Non-maximizing policies that fulfill multi-criterion aspirations in expectation

投稿日: 2025年2月26日作成者: jarxiv

要約動的なプログラミングと強化学習では、確率的環境におけるエージェントの連続的 … 続きを読む →

カテゴリー: 68T20, 90C40, 91B06, cs.AI, econ.TH, F.2.2, math.OC | コメントを受け付けていません

A Survey of Reinforcement Learning for Optimization in Automation

投稿日: 2025年2月14日作成者: jarxiv

要約 Rehnection Learning（RL）は、自動化内で最適化の課題の … 続きを読む →

カテゴリー: 49M37, 68T05, 90C40, C.4, cs.AI, cs.LG, cs.NE, cs.RO, cs.SY, eess.SY | コメントを受け付けていません

Variational Sequential Optimal Experimental Design using Reinforcement Learning

投稿日: 2024年12月24日作成者: jarxiv

要約我々は、情報理論的基準を備えたベイジアンフレームワーク内で有限シーケンスの … 続きを読む →

カテゴリー: 62C10, 62F15, 62K05, 62L05, 90C40, cs.AI, cs.LG, stat.CO, stat.ME, stat.ML | コメントを受け付けていません

A Fisher-Rao gradient flow for entropy-regularised Markov decision processes in Polish spaces

投稿日: 2024年12月6日作成者: jarxiv

要約我々は、ポーランドの状態および行動空間を用いた無限地平線エントロピー正則化 … 続きを読む →

カテゴリー: 60B05, 90C26, 90C40, 90C53, 93E20, cs.LG, math.OC, math.PR | コメントを受け付けていません

Strongly-polynomial time and validation analysis of policy gradient methods

投稿日: 2024年12月3日作成者: jarxiv

要約この論文では、有限状態およびアクションのマルコフ決定プロセス (MDP) … 続きを読む →

カテゴリー: 49K45, 49M05, 90C05, 90C26, 90C40, 90C46, cs.AI, cs.DS, cs.LG, math.OC | コメントを受け付けていません

Achieving Exponential Asymptotic Optimality in Average-Reward Restless Bandits without Global Attractor Assumption

投稿日: 2024年10月18日作成者: jarxiv

要約無限の地平線の平均報酬の落ち着きのない盗賊問題を考えます。我々は、アーム … 続きを読む →

カテゴリー: 90C40, cs.LG, G.3, math.OC, math.PR | コメントを受け付けていません

Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits

投稿日: 2024年10月4日作成者: jarxiv

要約我々は、離散時間における無限地平の平均報酬型レストレス・バンディット問題を … 続きを読む →

カテゴリー: 90C40, cs.LG, G.3, math.OC, math.PR | コメントを受け付けていません

Active Inference Tree Search in Large POMDPs

投稿日: 2024年8月19日作成者: jarxiv

要約事前に効率的に計画を立てる能力は、生物と人工システムの両方にとって重要です … 続きを読む →

カテゴリー: 68Q07, 68T20, 68W27, 90C40, cs.AI, G.3, math.PR, q-bio.NC | コメントを受け付けていません

Non-maximizing policies that fulfill multi-criterion aspirations in expectation

投稿日: 2024年8月9日作成者: jarxiv

要約動的計画法と強化学習では、確率的環境におけるエージェントの逐次的な意思決定 … 続きを読む →

カテゴリー: 68T20, 90C40, 91B06, cs.AI, econ.TH, F.2.2, math.OC | コメントを受け付けていません

Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits

投稿日: 2024年6月14日作成者: jarxiv

要約無限の地平線、平均報酬の落ち着きのない盗賊問題を離散時間で考察します。私 … 続きを読む →

カテゴリー: 90C40, cs.LG, G.3, math.OC, math.PR | コメントを受け付けていません

「90C40」カテゴリーアーカイブ

Non-maximizing policies that fulfill multi-criterion aspirations in expectation

A Survey of Reinforcement Learning for Optimization in Automation

Variational Sequential Optimal Experimental Design using Reinforcement Learning

A Fisher-Rao gradient flow for entropy-regularised Markov decision processes in Polish spaces

Strongly-polynomial time and validation analysis of policy gradient methods

Achieving Exponential Asymptotic Optimality in Average-Reward Restless Bandits without Global Attractor Assumption

Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits

Active Inference Tree Search in Large POMDPs

Non-maximizing policies that fulfill multi-criterion aspirations in expectation

Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits

最近の投稿

最近のコメント

アーカイブ

カテゴリー