93E35」カテゴリーアーカイブ

Learning payoffs while routing in skill-based queues

要約 サービス システム内のアプリケーションを動機として、適切なスキル セットを … 続きを読む

カテゴリー: 60K25, 90C27, 93E35, cs.LG, math.PR | コメントする

Posterior Sampling-based Online Learning for Episodic POMDPs

要約 POMDP での学習は、MDP よりもはるかに難しいことが知られています。 … 続きを読む

カテゴリー: 93E35, cs.AI, cs.LG, cs.SY, eess.SY, stat.ML | Posterior Sampling-based Online Learning for Episodic POMDPs はコメントを受け付けていません

Stability of Q-Learning Through Design and Optimism

要約 Q ラーニングは、1980 年代に Chris Watkins の論文で導 … 続きを読む

カテゴリー: 62L20, 68T05, 93E20, 93E35, cs.LG, cs.SY, eess.SY, math.OC | Stability of Q-Learning Through Design and Optimism はコメントを受け付けていません