-
最近の投稿
- Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL
- Nearly Optimal Nonlinear Safe Control with BaS-SDRE
- Field Report on Ground Penetrating Radar for Localization at the Mars Desert Research Station
- LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning
- CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (36968) cs.CL (27986) cs.CV (42734) cs.HC (2830) cs.LG (41908) cs.RO (21895) cs.SY (3335) eess.IV (4980) eess.SY (3327) stat.ML (5485)
「cs.LG」カテゴリーアーカイブ
Training on the Test Task Confounds Evaluation and Emergence
要約 テストタスクに関するトレーニングと呼ばれる大規模な言語モデルの評価において … 続きを読む
BlendRL: A Framework for Merging Symbolic and Neural Policy Learning
要約 人間は、象徴的な推論と直感的な反応の両方を活用できます。 対照的に、補強学 … 続きを読む
M$^2$AD: Multi-Sensor Multi-System Anomaly Detection through Global Scoring and Calibrated Thresholding
要約 産業および運用システム全体でセンサーデータが広く利用できるようになったため … 続きを読む
Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions
要約 AIアシスタントは、人々の決定や世界観を形作る価値判断を与えることができま … 続きを読む
Leveraging Language Models for Automated Patient Record Linkage
要約 目的:ヘルスケアデータの断片化は、患者データをリンクするための主要な課題を … 続きを読む
Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction
要約 オープンエンドの実世界のタスクのゆるい抽象化である一連の最小アルゴリズムタ … 続きを読む
Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning
要約 プロセス報酬モデル(PRMS)は、挑戦的な推論タスクに関する大規模な言語モ … 続きを読む
RILe: Reinforced Imitation Learning
要約 複雑な行動を取得することは、人為的にインテリジェントなエージェントに不可欠 … 続きを読む
Continuous Locomotive Crowd Behavior Generation
要約 群衆の行動のモデリングと再現は、心理学、ロボット工学、輸送工学、仮想環境な … 続きを読む
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
要約 ゼロショットメトリック単眼深度推定の基礎モデルを提示します。 私たちのモデ … 続きを読む