-
最近の投稿
- Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL
- Nearly Optimal Nonlinear Safe Control with BaS-SDRE
- Field Report on Ground Penetrating Radar for Localization at the Mars Desert Research Station
- LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning
- CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (36968) cs.CL (27986) cs.CV (42734) cs.HC (2830) cs.LG (41908) cs.RO (21895) cs.SY (3335) eess.IV (4980) eess.SY (3327) stat.ML (5485)
「cs.GT」カテゴリーアーカイブ
Pontryagin Neural Operator for Solving Parametric General-Sum Differential Games
要約 二人対戦の一般和微分ゲームの値は、ハミルトン-ヤコビ-アイザック(HJI) … 続きを読む
Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL
要約 本研究では、モデルベースの関数近似を用いた平均場ゲーム(MFG)における強 … 続きを読む
Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles
要約 ゼロサムゲームを解くための一般的なアプローチは、ナッシュ均衡(NE)を近似 … 続きを読む
Stochastic Online Fisher Markets: Static Pricing Limits and Adaptive Enhancements
要約 漁場は資源配分の最も基本的なモデルの 1 つです。 しかし、フィッシャーマ … 続きを読む
Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles
要約 非推移性を伴うゼロサム ゲームを解決するための一般的なアプローチは、ナッシ … 続きを読む
Eliciting Informative Text Evaluations with Large Language Models
要約 ピア予測メカニズムは、証明可能な保証を備えた高品質のフィードバックを動機付 … 続きを読む
Policy Space Response Oracles: A Survey
要約 ゲーム理論は、複数の意思決定者間の相互作用を研究する数学的方法を提供します … 続きを読む
Axioms for AI Alignment from Human Feedback
要約 ヒューマン フィードバックからの強化学習 (RLHF) のコンテキストでは … 続きを読む
Strategy-Proof Auctions through Conformal Prediction
要約 オークションは、売り手の収益を最大化し、買い手間の誠実な入札を保証するため … 続きを読む
Strategy-Proof Auctions through Conformal Prediction
要約 オークションは、売り手の収益を最大化し、買い手間の誠実な入札を保証するため … 続きを読む