「cs.CV」カテゴリーアーカイブ

Iterating the Transient Light Transport Matrix for Non-Line-of-Sight Imaging

投稿日: 2024年12月16日作成者: jarxiv

要約アクティブイメージングシステムは、制御可能な光源を使用してシーン内のさ … 続きを読む →

カテゴリー: cs.CV, physics.optics | コメントを受け付けていません

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

投稿日: 2024年12月16日作成者: jarxiv

要約ここでは、大規模な専門家混合 (MoE) ビジョン言語モデルの高度なシリー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

TrafficLoc: Localizing Traffic Surveillance Cameras in 3D Scenes

投稿日: 2024年12月16日作成者: jarxiv

要約私たちは、協力的な知覚において交通監視カメラの位置を特定するという問題に取 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

BrushEdit: All-In-One Image Inpainting and Editing

投稿日: 2024年12月16日作成者: jarxiv

要約画像編集は、反転ベースの方法と命令ベースの方法の両方を使用した拡散モデルの … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

XYScanNet: An Interpretable State Space Model for Perceptual Image Deblurring

投稿日: 2024年12月16日作成者: jarxiv

要約最近の Mamba アーキテクチャと同様に、深層状態空間モデル (SSM) … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A Universal Degradation-based Bridging Technique for Domain Adaptive Semantic Segmentation

投稿日: 2024年12月16日作成者: jarxiv

要約セマンティックセグメンテーションは、トレーニングされたネットワークが別の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining

投稿日: 2024年12月16日作成者: jarxiv

要約 Web ページ、ソフトウェアアプリケーション、オペレーティングシステム … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

A dual contrastive framework

投稿日: 2024年12月16日作成者: jarxiv

要約現在のマルチモーダルタスクでは、モデルは通常、領域キャプションなどのタス … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Ensuring Force Safety in Vision-Guided Robotic Manipulation via Implicit Tactile Calibration

投稿日: 2024年12月16日作成者: jarxiv

要約動的な環境では、ロボットがドアなどの特定のプロパティを持つオブジェクトを操 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

VibrantVS: A high-resolution multi-task transformer for forest canopy height estimation

投稿日: 2024年12月16日作成者: jarxiv

要約この論文では、米国西部全域の 4 バンド国立農業画像プログラム (NAIP … 続きを読む →

カテゴリー: cs.CV, I.2.10 | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Iterating the Transient Light Transport Matrix for Non-Line-of-Sight Imaging

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

TrafficLoc: Localizing Traffic Surveillance Cameras in 3D Scenes

BrushEdit: All-In-One Image Inpainting and Editing

XYScanNet: An Interpretable State Space Model for Perceptual Image Deblurring

A Universal Degradation-based Bridging Technique for Domain Adaptive Semantic Segmentation

Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining

A dual contrastive framework

Ensuring Force Safety in Vision-Guided Robotic Manipulation via Implicit Tactile Calibration

VibrantVS: A high-resolution multi-task transformer for forest canopy height estimation

最近の投稿

最近のコメント

アーカイブ

カテゴリー