90C40」カテゴリーアーカイブ

Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits

要約 無限の地平線、平均報酬の落ち着きのない盗賊問題を離散時間で考察します。 私 … 続きを読む

カテゴリー: 90C40, cs.LG, G.3, math.OC, math.PR | Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits はコメントを受け付けていません

Restless Bandits with Average Reward: Breaking the Uniform Global Attractor Assumption

要約 離散時間設定と連続時間設定の両方で、平均報酬基準を使用して無限地平線の落ち … 続きを読む

カテゴリー: 90C40, cs.LG, G.3, math.OC, math.PR, stat.ML | Restless Bandits with Average Reward: Breaking the Uniform Global Attractor Assumption はコメントを受け付けていません

A Fisher-Rao gradient flow for entropy-regularised Markov decision processes in Polish spaces

要約 我々は、ポーランドの状態と行動空間を用いた無限地平線エントロピー正則化マル … 続きを読む

カテゴリー: 60B05, 90C26, 90C40, 90C53, 93E20, cs.LG, math.OC, math.PR | A Fisher-Rao gradient flow for entropy-regularised Markov decision processes in Polish spaces はコメントを受け付けていません

Active Inference Tree Search in Large POMDPs

要約 前もって効率的に計画を立てる能力は、生物と人工システムの両方にとって重要で … 続きを読む

カテゴリー: 68Q07, 68T20, 68W27, 90C40, cs.AI, G.3, math.PR, q-bio.NC | Active Inference Tree Search in Large POMDPs はコメントを受け付けていません