「cs.GT」カテゴリーアーカイブ

Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback

投稿日: 2024年6月5日作成者: jarxiv

要約 GPT-4 などの財団モデルは、犯罪の幇助や人種差別的なテキストの作成など … 続きを読む →

カテゴリー: 68T01, 68T50, 91B12, 91B14, cs.AI, cs.CL, cs.CY, cs.GT, cs.LG, I.2.0 | コメントを受け付けていません

The complexity of approximate (coarse) correlated equilibrium for incomplete information games

投稿日: 2024年6月5日作成者: jarxiv

要約不完全情報ゲームにおける近似相関平衡の分散学習の反復の複雑さを研究します。 … 続きを読む →

カテゴリー: cs.AI, cs.DS, cs.GT, cs.LG | コメントを受け付けていません

Pontryagin Neural Operator for Solving Parametric General-Sum Differential Games

投稿日: 2024年6月4日作成者: jarxiv

要約二人対戦の一般和微分ゲームの値は、ハミルトン-ヤコビ-アイザック（HJI） … 続きを読む →

カテゴリー: cs.GT, cs.LG, cs.RO | コメントを受け付けていません

Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL

投稿日: 2024年6月4日作成者: jarxiv

要約本研究では、モデルベースの関数近似を用いた平均場ゲーム(MFG)における強 … 続きを読む →

カテゴリー: cs.AI, cs.GT, cs.LG, stat.ML | コメントを受け付けていません

Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles

投稿日: 2024年6月4日作成者: jarxiv

要約ゼロサムゲームを解くための一般的なアプローチは、ナッシュ均衡(NE)を近似 … 続きを読む →

カテゴリー: cs.AI, cs.GT, cs.LG, cs.MA | コメントを受け付けていません

Stochastic Online Fisher Markets: Static Pricing Limits and Adaptive Enhancements

投稿日: 2024年6月3日作成者: jarxiv

要約漁場は資源配分の最も基本的なモデルの 1 つです。しかし、フィッシャーマ … 続きを読む →

カテゴリー: cs.GT, cs.LG, econ.TH, math.OC | コメントを受け付けていません

Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles

投稿日: 2024年6月3日作成者: jarxiv

要約非推移性を伴うゼロサムゲームを解決するための一般的なアプローチは、ナッシ … 続きを読む →

カテゴリー: cs.AI, cs.GT, cs.LG, cs.MA | コメントを受け付けていません

Eliciting Informative Text Evaluations with Large Language Models

投稿日: 2024年5月29日作成者: jarxiv

要約ピア予測メカニズムは、証明可能な保証を備えた高品質のフィードバックを動機付 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.GT | コメントを受け付けていません

Policy Space Response Oracles: A Survey

投稿日: 2024年5月28日作成者: jarxiv

要約ゲーム理論は、複数の意思決定者間の相互作用を研究する数学的方法を提供します … 続きを読む →

カテゴリー: cs.AI, cs.GT, cs.MA | コメントを受け付けていません

Axioms for AI Alignment from Human Feedback

投稿日: 2024年5月24日作成者: jarxiv

要約ヒューマンフィードバックからの強化学習 (RLHF) のコンテキストでは … 続きを読む →

カテゴリー: cs.AI, cs.GT, cs.LG | コメントを受け付けていません

「cs.GT」カテゴリーアーカイブ

Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback

The complexity of approximate (coarse) correlated equilibrium for incomplete information games

Pontryagin Neural Operator for Solving Parametric General-Sum Differential Games

Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL

Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles

Stochastic Online Fisher Markets: Static Pricing Limits and Adaptive Enhancements

Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles

Eliciting Informative Text Evaluations with Large Language Models

Policy Space Response Oracles: A Survey

Axioms for AI Alignment from Human Feedback

最近の投稿

最近のコメント

アーカイブ

カテゴリー