cs.CV」カテゴリーアーカイブ

Decoupling Fine Detail and Global Geometry for Compressed Depth Map Super-Resolution

要約 消費者向けの深度カメラの制限とデータ送信時の帯域幅の制限により、圧縮ソース … 続きを読む

カテゴリー: cs.CV | Decoupling Fine Detail and Global Geometry for Compressed Depth Map Super-Resolution はコメントを受け付けていません

Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection

要約 私たちは、半教師あり単眼 3D 物体検出 (SSM3OD) の擬似ラベリン … 続きを読む

カテゴリー: cs.CV | Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection はコメントを受け付けていません

ShadowMamba: State-Space Model with Boundary-Region Selective Scan for Shadow Removal

要約 画像の影の除去は典型的な低レベルの視覚の問題であり、影の存在により特定の領 … 続きを読む

カテゴリー: cs.CV | ShadowMamba: State-Space Model with Boundary-Region Selective Scan for Shadow Removal はコメントを受け付けていません

DiT4Edit: Diffusion Transformer for Image Editing

要約 UNet ベースの画像編集は最近進歩していますが、高解像度画像で形状を認識 … 続きを読む

カテゴリー: cs.CV | DiT4Edit: Diffusion Transformer for Image Editing はコメントを受け付けていません

Cognitive Planning for Object Goal Navigation using Generative AI Models

要約 生成 AI、特に大規模言語モデル (LLM) と大規模視覚言語モデル (L … 続きを読む

カテゴリー: cs.CV, cs.RO | Cognitive Planning for Object Goal Navigation using Generative AI Models はコメントを受け付けていません

DAAL: Density-Aware Adaptive Line Margin Loss for Multi-Modal Deep Metric Learning

要約 マルチモーダルディープメトリクスラーニングは、顔認証、きめ細かいオブジェク … 続きを読む

カテゴリー: cs.CV, cs.LG | DAAL: Density-Aware Adaptive Line Margin Loss for Multi-Modal Deep Metric Learning はコメントを受け付けていません

Inference Optimal VLMs Need Only One Visual Token but Larger Models

要約 ビジョン言語モデル (VLM) は、さまざまな視覚的理解と推論タスクにわた … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Inference Optimal VLMs Need Only One Visual Token but Larger Models はコメントを受け付けていません

Classification Done Right for Vision-Language Pre-Training

要約 画像テキストデータに対する視覚言語の事前トレーニングのための非常にシンプル … 続きを読む

カテゴリー: cs.CV | Classification Done Right for Vision-Language Pre-Training はコメントを受け付けていません

MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning

要約 近年、一般的なドメインのマルチモーダル ベンチマークにより、一般的なタスク … 続きを読む

カテゴリー: cs.CL, cs.CV | MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning はコメントを受け付けていません

Digi2Real: Bridging the Realism Gap in Synthetic Data Face Recognition via Foundation Models

要約 顔認識システムの精度は、収集された大量のデータとニューラル ネットワーク … 続きを読む

カテゴリー: cs.CV | Digi2Real: Bridging the Realism Gap in Synthetic Data Face Recognition via Foundation Models はコメントを受け付けていません