「math.OC」カテゴリーアーカイブ

$ε$-Policy Gradient for Online Pricing

投稿日: 2024年5月7日作成者: jarxiv

要約本稿では、モデルベースとモデルフリーの強化学習アプローチを組み合わせて、オ … 続きを読む →

カテゴリー: 62J12, 65Y20, 68Q32, cs.LG, math.OC, q-fin.ST, stat.ML | コメントを受け付けていません

Regularized Q-learning through Robust Averaging

投稿日: 2024年5月6日作成者: jarxiv

要約我々は、2RA Q-learningと呼ばれる新しいQ-learningの … 続きを読む →

カテゴリー: cs.LG, math.OC | コメントを受け付けていません

Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach

投稿日: 2024年5月6日作成者: jarxiv

要約ロバスト強化学習(RRL)は、不確実性や擾乱に対してロバストなモデルを学習 … 続きを読む →

カテゴリー: 49N70, 68T07, cs.AI, cs.GT, cs.LG, cs.SY, eess.SY, math.OC | コメントを受け付けていません

A Convex Formulation of the Soft-Capture Problem

投稿日: 2024年5月3日作成者: jarxiv

要約非協力的なタンブリング空間オブジェクトをソフトにキャプチャするための高速軌 … 続きを読む →

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | コメントを受け付けていません

On Semidefinite Relaxations for Matrix-Weighted State-Estimation Problems in Robotics

投稿日: 2024年5月3日作成者: jarxiv

要約近年、ロボット工学における知覚問題の大域最適を見つけるために半明確な凸緩和 … 続きを読む →

カテゴリー: cs.RO, math.OC | コメントを受け付けていません

Adaptive Federated Learning with Auto-Tuned Clients

投稿日: 2024年5月3日作成者: jarxiv

要約フェデレーテッドラーニング (FL) は、分散型機械学習フレームワークで … 続きを読む →

カテゴリー: cs.DC, cs.LG, math.OC | コメントを受け付けていません

Random Pareto front surfaces

投稿日: 2024年5月3日作成者: jarxiv

要約ベクトルのセットのパレートフロントは、すべての最良のトレードオフポイン … 続きを読む →

カテゴリー: cs.LG, math.OC, stat.ME, stat.ML | コメントを受け付けていません

Common pitfalls to avoid while using multiobjective optimization in machine learning

投稿日: 2024年5月3日作成者: jarxiv

要約最近、機械学習 (ML) における多目的最適化 (MOO) の応用の探索に … 続きを読む →

カテゴリー: cs.LG, math.OC | コメントを受け付けていません

Boosting Jailbreak Attack with Momentum

投稿日: 2024年5月3日作成者: jarxiv

要約大規模言語モデル (LLM) は、さまざまなタスクにわたって目覚ましい成功 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG, math.OC | コメントを受け付けていません

Multi-objective optimisation via the R2 utilities

投稿日: 2024年5月2日作成者: jarxiv

要約複数の目的の最適化の目標は、複数の目的間の可能な限り最良のトレードオフを表 … 続きを読む →

カテゴリー: cs.LG, math.OC, stat.ML | コメントを受け付けていません

「math.OC」カテゴリーアーカイブ

$ε$-Policy Gradient for Online Pricing

Regularized Q-learning through Robust Averaging

Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach

A Convex Formulation of the Soft-Capture Problem

On Semidefinite Relaxations for Matrix-Weighted State-Estimation Problems in Robotics

Adaptive Federated Learning with Auto-Tuned Clients

Random Pareto front surfaces

Common pitfalls to avoid while using multiobjective optimization in machine learning

Boosting Jailbreak Attack with Momentum

Multi-objective optimisation via the R2 utilities

最近の投稿

最近のコメント

アーカイブ

カテゴリー