-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.LG」カテゴリーアーカイブ
Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration
要約 嗜好ベースのフィードバックは、報酬機能の評価が実行不可能な機械学習における … 続きを読む
The Impact of Input Order Bias on Large Language Models for Software Fault Localization
要約 大規模な言語モデル(LLM)は、障害ローカリゼーション(FL)や自動プログ … 続きを読む
Predictable Scale: Part I — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
要約 多様なタスクにわたる大規模な言語モデル(LLM)の印象的な機能は現在確立さ … 続きを読む
dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis
要約 Federated Learningは、医療分野で幅広い用途を持っています … 続きを読む
Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols?
要約 AIコントロールプロトコルは、AIが意図的に何らかの容認できない結果を引き … 続きを読む
Probabilities of Chat LLMs Are Miscalibrated but Still Predict Correctness on Multiple-Choice Q&A
要約 チャット用に微調整された15の大手言語モデル(LLM)を研究し、最大のソフ … 続きを読む
Smooth InfoMax — Towards easier Post-Hoc interpretability
要約 Smooth Infomax(SIM)を紹介します。これは、ニューラルネッ … 続きを読む
What Makes a Reward Model a Good Teacher? An Optimization Perspective
要約 人間のフィードバック(RLHF)からの強化学習の成功は、報酬モデルの品質に … 続きを読む
Learning to Play Piano in the Real World
要約 ロボットで人間レベルの操作を達成するという壮大な挑戦に向けて、ピアノを演奏 … 続きを読む