月別アーカイブ: 2024年5月

Policy Space Response Oracles: A Survey

投稿日: 2024年5月28日作成者: jarxiv

要約ゲーム理論は、複数の意思決定者間の相互作用を研究する数学的方法を提供します … 続きを読む →

カテゴリー: cs.AI, cs.GT, cs.MA | コメントを受け付けていません

Exploring and steering the moral compass of Large Language Models

投稿日: 2024年5月28日作成者: jarxiv

要約大規模言語モデル (LLM) は、さまざまな分野にわたって自動化と意思決定 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Prompt Optimization with Human Feedback

投稿日: 2024年5月28日作成者: jarxiv

要約大規模言語モデル (LLM) は、さまざまなタスクで顕著なパフォーマンスを … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Why Transformers Need Adam: A Hessian Perspective

投稿日: 2024年5月28日作成者: jarxiv

要約『トランスフォーマー』ではSGDのパフォーマンスがアダムより大幅に劣ってい … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Rethinking Transformers in Solving POMDPs

投稿日: 2024年5月28日作成者: jarxiv

要約現実世界のシナリオにおける強化学習 (RL) などの逐次意思決定アルゴリズ … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Generating Likely Counterfactuals Using Sum-Product Networks

投稿日: 2024年5月28日作成者: jarxiv

要約 AI システムによる意思決定の説明可能性は、最近の規制とユーザーの需要の両 … 続きを読む →

カテゴリー: cs.AI, cs.LG, math.OC | コメントを受け付けていません

A Theoretical Framework for Partially Observed Reward-States in RLHF

投稿日: 2024年5月28日作成者: jarxiv

要約ヒューマンフィードバックからの強化学習 (RLHF) の展開の拡大には、 … 続きを読む →

カテゴリー: cs.AI, cs.LG, stat.ML | コメントを受け付けていません

BehaviorGPT: Smart Agent Simulation for Autonomous Driving with Next-Patch Prediction

投稿日: 2024年5月28日作成者: jarxiv

要約自動運転システムの安全性を効率的に検証するには、交通エージェント間の現実的 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.RO | コメントを受け付けていません

MindMerger: Efficient Boosting LLM Reasoning in non-English Languages

投稿日: 2024年5月28日作成者: jarxiv

要約推論機能は大規模言語モデル (LLM) にとって重要ですが、英語と英語以外 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Transformers Can Do Arithmetic with the Right Embeddings

投稿日: 2024年5月28日作成者: jarxiv

要約算術タスクにおけるトランスフォーマーのパフォーマンスの低下は、大きな桁範囲 … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

月別アーカイブ: 2024年5月

Policy Space Response Oracles: A Survey

Exploring and steering the moral compass of Large Language Models

Prompt Optimization with Human Feedback

Why Transformers Need Adam: A Hessian Perspective

Rethinking Transformers in Solving POMDPs

Generating Likely Counterfactuals Using Sum-Product Networks

A Theoretical Framework for Partially Observed Reward-States in RLHF

BehaviorGPT: Smart Agent Simulation for Autonomous Driving with Next-Patch Prediction

MindMerger: Efficient Boosting LLM Reasoning in non-English Languages

Transformers Can Do Arithmetic with the Right Embeddings

最近の投稿

最近のコメント

アーカイブ

カテゴリー