-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
What is the Alignment Objective of GRPO?
要約 このメモでは、Group Policy Optimization(GRPO … 続きを読む
GBSVR: Granular Ball Support Vector Regression
要約 サポートベクトル回帰(SVR)とそのバリアントは、回帰タスクの処理に広く使 … 続きを読む
Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More
要約 この作業は、グラフを検索する最小限の例であるパススタータスクに関するもので … 続きを読む
KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation
要約 大規模な言語モデル(LLMS)とビジョン言語モデル(VLMS)の急速な進歩 … 続きを読む
DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback
要約 モデルを教えるためのトレーニングデータを作成するプロセスは現在、モデルの弱 … 続きを読む
Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking
要約 複雑な目的を正確に指定することは困難であるため、補強学習ポリシーは、真の目 … 続きを読む
The Spectral Bias of Shallow Neural Network Learning is Shaped by the Choice of Non-linearity
要約 重度の過剰適合を予測する古典的な統計理論にもかかわらず、最新の大規模な過剰 … 続きを読む
Chain-of-Thought Reasoning In The Wild Is Not Always Faithful
要約 チェーンオブシャーチ(COT)の推論は、最先端のAI機能を大幅に進めていま … 続きを読む
Compositional Subspace Representation Fine-tuning for Adaptive Large Language Models
要約 大規模な言語モデルを複数のタスクに適応させると、クロススキル干渉を引き起こ … 続きを読む
Siege: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search
要約 ツリー検索の観点から大規模な言語モデル(LLM)安全性の漸進的な侵食をモデ … 続きを読む