-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
M3TR: A Generalist Model for Real-World HD Map Completion
要約 自動運転車は操作のためにHDマップに依存していますが、オフラインのHDマッ … 続きを読む
TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving
要約 自律運転で視覚的な質問回答(VQA)に採用されたビジョン言語モデル(VLM … 続きを読む
カテゴリー: cs.CV
TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving はコメントを受け付けていません
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach
要約 視覚的なキューを統合することにより、騒々しい環境での視聴覚音声認識(AVS … 続きを読む
CLIMB-3D: Continual Learning for Imbalanced 3D Instance Segmentation
要約 3Dインスタンスセグメンテーション(3DIS)は大幅に進歩していますが、既 … 続きを読む
カテゴリー: cs.CV
CLIMB-3D: Continual Learning for Imbalanced 3D Instance Segmentation はコメントを受け付けていません
Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models
要約 ビジョン言語モデル(VLM)は、マルチモーダルタスク、特に構成推論(CR) … 続きを読む
UWSAM: Segment Anything Model Guided Underwater Instance Segmentation and A Large-scale Benchmark Dataset
要約 最近の大規模モデリングのブレークスルーにより、セグメントAnything … 続きを読む
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation
要約 チャートやドキュメントなどの豊富なテキストを持つ画像に関する推論は、ビジョ … 続きを読む
Diversity-Driven View Subset Selection for Indoor Novel View Synthesis
要約 屋内シーンの新しいビュー統合は、環境の単眼ビデオシーケンスをキャプチャする … 続きを読む
VP Lab: a PEFT-Enabled Visual Prompting Laboratory for Semantic Segmentation
要約 大規模な前処理されたビジョンバックボーンは、セマンティックセグメンテーショ … 続きを読む
カテゴリー: cs.CV
VP Lab: a PEFT-Enabled Visual Prompting Laboratory for Semantic Segmentation はコメントを受け付けていません
Beyond Classification: Evaluating Diffusion Denoised Smoothing for Security-Utility Trade off
要約 基礎モデルは、さまざまなタスクで印象的なパフォーマンスを示していますが、敵 … 続きを読む