-
最近の投稿
- Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations
- Recursive Decomposition with Dependencies for Generic Divide-and-Conquer Reasoning
- Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering
- A Synergistic Framework of Nonlinear Acoustic Computing and Reinforcement Learning for Real-World Human-Robot Interaction
- RoboPanoptes: The All-seeing Robot with Whole-body Dexterity
-
最近のコメント
表示できるコメントはありません。 cs.AI (37618) cs.CL (28441) cs.CV (43250) cs.HC (2877) cs.LG (42544) cs.RO (22329) cs.SY (3427) eess.IV (5024) eess.SY (3419) stat.ML (5549)
「cs.GT」カテゴリーアーカイブ
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning
要約 人間のフィードバックによる強化学習(RLHF)は、大規模な言語モデル(LL … 続きを読む
Re-evaluating Open-ended Evaluation of Large Language Models
要約 評価は、伝統的に特定のスキルの候補者のランキングに焦点を当ててきました。 … 続きを読む
Mixing Any Cocktail with Limited Ingredients: On the Structure of Payoff Sets in Multi-Objective MDPs and its Impact on Randomised Strategies
要約 マルコフの決定プロセスにおける多次元ペイオフ関数を検討し、特定の予想ペイオ … 続きを読む
Adversaries With Incentives: A Strategic Alternative to Adversarial Robustness
要約 敵対的な訓練は、 *敵対者 *を防御することを目的としています。その唯一の … 続きを読む
An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces
要約 専門家の空間ではなく、敵の将来の行動の空間で学習者の事前が定義されている場 … 続きを読む
An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces
要約 専門家の空間ではなく、敵の将来の行動の空間で学習者の事前が定義されている場 … 続きを読む
Human Misperception of Generative-AI Alignment: A Laboratory Experiment
要約 私たちは、経済的意思決定の文脈において、生成的人工知能(GENAI)のアラ … 続きを読む
AI-Assisted Decision Making with Human Learning
要約 AIシステムは、人間の意思決定をますますサポートしています。 多くの場合、 … 続きを読む
A Multiagent Path Search Algorithm for Large-Scale Coalition Structure Generation
要約 連合構造生成(CSG)、つまり、エージェントのセットを連合に最適に分割して … 続きを読む
Reinforcement Learning in Strategy-Based and Atari Games: A Review of Google DeepMinds Innovations
要約 Rehnection Learning(RL)は、AIモデルの優れたトレー … 続きを読む