-
最近の投稿
- Grasp EveryThing (GET): 1-DoF, 3-Fingered Gripper with Tactile Sensing for Robust Grasping
- Neural Inertial Odometry from Lie Events
- Physical synchronization of soft self-oscillating limbs for fast and autonomous locomotion
- CRADMap: Applied Distributed Volumetric Mapping with 5G-Connected Multi-Robots and 4D Radar Perception
- Learning Rock Pushability on Rough Planetary Terrain
-
最近のコメント
表示できるコメントはありません。 cs.AI (38176) cs.CL (28850) cs.CV (43741) cs.HC (2915) cs.LG (43106) cs.RO (22722) cs.SY (3490) eess.IV (5071) eess.SY (3482) stat.ML (5612)
「cs.CV」カテゴリーアーカイブ
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning
要約 大規模なマルチモーダルモデルのトレーニングに広く使用されている自然言語画像 … 続きを読む
End-to-End Vision Tokenizer Tuning
要約 既存の視覚トークン化は、視覚トークンがさまざまなタスク、例えば画像生成や視 … 続きを読む
3D-Fixup: Advancing Photo Editing with 3D Priors
要約 拡散モデルを介したモデリング画像プリエアの大幅な進歩にもかかわらず、オブジ … 続きを読む
Behind Maya: Building a Multilingual Vision Language Model
要約 最近では、大規模なビジョン言語モデル(VLM)の急速な発展が見られました。 … 続きを読む
RT-cache: Efficient Robot Trajectory Retrieval System
要約 このホワイトペーパーでは、ビッグデータの検索を活用して経験から学ぶことによ … 続きを読む
OpenLKA: An Open Dataset of Lane Keeping Assist from Recent Car Models under Real-world Driving Conditions
要約 Lane Keeping Assist(LKA)は現代の車両で広く採用され … 続きを読む
FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis
要約 衣服の変形性により、ロボット衣服操作タスクのために大量の高品質データを生成 … 続きを読む
AdaWorld: Learning Adaptable World Models with Latent Actions
要約 世界モデルは、アクション制御された将来の予測を学ぶことを目指しており、イン … 続きを読む
METDrive: Multi-modal End-to-end Autonomous Driving with Temporal Guidance
要約 マルチモーダルエンドツーエンドの自律運転は、最近の研究で有望な進歩を示して … 続きを読む