cs.CV」カテゴリーアーカイブ

M3TR: A Generalist Model for Real-World HD Map Completion

要約 自動運転車は操作のためにHDマップに依存していますが、オフラインのHDマッ … 続きを読む

カテゴリー: cs.CV, cs.RO | M3TR: A Generalist Model for Real-World HD Map Completion はコメントを受け付けていません

TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving

要約 自律運転で視覚的な質問回答(VQA)に採用されたビジョン言語モデル(VLM … 続きを読む

カテゴリー: cs.CV | TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving はコメントを受け付けていません

Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

要約 視覚的なキューを統合することにより、騒々しい環境での視聴覚音声認識(AVS … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach はコメントを受け付けていません

CLIMB-3D: Continual Learning for Imbalanced 3D Instance Segmentation

要約 3Dインスタンスセグメンテーション(3DIS)は大幅に進歩していますが、既 … 続きを読む

カテゴリー: cs.CV | CLIMB-3D: Continual Learning for Imbalanced 3D Instance Segmentation はコメントを受け付けていません

Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models

要約 ビジョン言語モデル(VLM)は、マルチモーダルタスク、特に構成推論(CR) … 続きを読む

カテゴリー: cs.CV, cs.LG | Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models はコメントを受け付けていません

UWSAM: Segment Anything Model Guided Underwater Instance Segmentation and A Large-scale Benchmark Dataset

要約 最近の大規模モデリングのブレークスルーにより、セグメントAnything … 続きを読む

カテゴリー: cs.AI, cs.CV | UWSAM: Segment Anything Model Guided Underwater Instance Segmentation and A Large-scale Benchmark Dataset はコメントを受け付けていません

Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation

要約 チャートやドキュメントなどの豊富なテキストを持つ画像に関する推論は、ビジョ … 続きを読む

カテゴリー: cs.CL, cs.CV | Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation はコメントを受け付けていません

Diversity-Driven View Subset Selection for Indoor Novel View Synthesis

要約 屋内シーンの新しいビュー統合は、環境の単眼ビデオシーケンスをキャプチャする … 続きを読む

カテゴリー: cs.AI, cs.CV | Diversity-Driven View Subset Selection for Indoor Novel View Synthesis はコメントを受け付けていません

VP Lab: a PEFT-Enabled Visual Prompting Laboratory for Semantic Segmentation

要約 大規模な前処理されたビジョンバックボーンは、セマンティックセグメンテーショ … 続きを読む

カテゴリー: cs.CV | VP Lab: a PEFT-Enabled Visual Prompting Laboratory for Semantic Segmentation はコメントを受け付けていません

Beyond Classification: Evaluating Diffusion Denoised Smoothing for Security-Utility Trade off

要約 基礎モデルは、さまざまなタスクで印象的なパフォーマンスを示していますが、敵 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Beyond Classification: Evaluating Diffusion Denoised Smoothing for Security-Utility Trade off はコメントを受け付けていません