-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs
要約 このペーパーでは、視覚、オーディオ、テキスト入力を同時に網羅するマルチモー … 続きを読む
Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment
要約 特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダ … 続きを読む
SMART: Advancing Scalable Map Priors for Driving Topology Reasoning
要約 トポロジーの推論は、車線と交通要素の間の接続性と関係を包括的に理解すること … 続きを読む
Intelligent Sensing-to-Action for Robust Autonomy at the Edge: Opportunities and Challenges
要約 ロボット工学、スマートシティ、および自律車の自律的なエッジコンピューティン … 続きを読む
SD++: Enhancing Standard Definition Maps by Incorporating Road Knowledge using LLMs
要約 高解像度マップ(HDマップ)は、レーンセンターラインと道路要素をキャプチャ … 続きを読む
RoboGrasp: A Universal Grasping Policy for Robust Robotic Control
要約 模倣学習と世界モデルは、一般化可能なロボット学習を進めることに大きな約束を … 続きを読む
Edge Attention Module for Object Classification
要約 この研究では、オブジェクト分類タスクに関する新しい「エッジ注意ベースの畳み … 続きを読む
Tell2Reg: Establishing spatial correspondence between images by the same language prompts
要約 空間的対応は、セグメント化された領域のペアで表すことができ、画像登録ネット … 続きを読む
3D Face Reconstruction From Radar Images
要約 顔の3D再構成は、コンピュータービジョンで広く注目され、たとえばアニメーシ … 続きを読む
Assessing Open-world Forgetting in Generative Image Model Customization
要約 拡散モデルの最近の進歩により、画像生成機能が大幅に向上しています。 ただし … 続きを読む