-
最近の投稿
- TSCMamba: Mamba Meets Multi-View Learning for Time Series Classification
- Population Transformer: Learning Population-level Representations of Neural Activity
- Valley: Video Assistant with Large Language model Enhanced abilitY
- Leveraging Large Language Models for Collective Decision-Making
- A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges
-
最近のコメント
表示できるコメントはありません。 cs.AI (35243) cs.CL (26644) cs.CR (2697) cs.CV (41081) cs.LG (40233) cs.RO (20717) cs.SY (3143) eess.IV (4856) eess.SY (3137) stat.ML (5283)
「cs.RO」カテゴリーアーカイブ
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning
要約 大規模な視覚言語モデル(LVLMS)の最近の進歩は、具体化されたタスク計画 … 続きを読む
Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation
要約 Rehnection Learning(RL)は、ロボットナビゲーションの … 続きを読む
KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation
要約 大規模な言語モデル(LLMS)とビジョン言語モデル(VLMS)の急速な進歩 … 続きを読む
DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding
要約 大規模なマルチモーダルモデル(LMM)は、さまざまな視覚的質問応答(VQA … 続きを読む
NIL: No-data Imitation Learning by Leveraging Pre-trained Video Diffusion Models
要約 ヒューマノイドロボット、4倍、動物など、多様で型破りな形態学を介して身体的 … 続きを読む
UniGoal: Towards Universal Zero-shot Goal-oriented Navigation
要約 この論文では、ユニバーサルゼロショットの目標指向ナビゲーションの一般的なフ … 続きを読む
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model
要約 一般的な推論のための視覚言語モデル(VLM)の最近の進歩により、視覚言語ア … 続きを読む
2HandedAfforder: Learning Precise Actionable Bimanual Affordances from Human Videos
要約 オブジェクトと相互作用する場合、人間は、意図したアクション、つまりオブジェ … 続きを読む
PCLA: A Framework for Testing Autonomous Agents in the CARLA Simulator
要約 特にシミュレーション環境では、自律運転剤のテストに関する最近の研究が大幅に … 続きを読む
HumanoidPano: Hybrid Spherical Panoramic-LiDAR Cross-Modal Perception for Humanoid Robots
要約 ヒューマノイドロボットの知覚システム設計は、深刻な自己閉塞と限られた視野( … 続きを読む