cs.CV」カテゴリーアーカイブ

PSDiff: Diffusion Model for Person Search with Iterative and Collaborative Refinement

要約 主要人物検索手法は、統合ネットワーク内でクエリー人物の位置を特定して認識す … 続きを読む

カテゴリー: cs.CV | PSDiff: Diffusion Model for Person Search with Iterative and Collaborative Refinement はコメントを受け付けていません

DDIM sampling for Generative AIBIM, a faster intelligent structural design framework

要約 成功した構造設計パイプラインである Generative AIBIM は、 … 続きを読む

カテゴリー: cs.CV, cs.LG | DDIM sampling for Generative AIBIM, a faster intelligent structural design framework はコメントを受け付けていません

ILDiff: Generate Transparent Animated Stickers by Implicit Layout Distillation

要約 高品質のアニメーション ステッカーには通常、透明なチャネルが含まれています … 続きを読む

カテゴリー: cs.AI, cs.CV | ILDiff: Generate Transparent Animated Stickers by Implicit Layout Distillation はコメントを受け付けていません

WalkVLM:Aid Visually Impaired People Walking by Vision Language Model

要約 世界中で約 2 億人がさまざまな程度の視覚障害に苦しんでおり、AI テクノ … 続きを読む

カテゴリー: cs.AI, cs.CV | WalkVLM:Aid Visually Impaired People Walking by Vision Language Model はコメントを受け付けていません

TiGDistill-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry Learning Distillation

要約 自動運転などのアプリケーションには、正確なマルチビュー 3D オブジェクト … 続きを読む

カテゴリー: cs.CV | TiGDistill-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry Learning Distillation はコメントを受け付けていません

CAVE-Net: Classifying Abnormalities in Video Capsule Endoscopy

要約 医療画像の正確な分類は、誤分類が患者の転帰に大きな影響を与える可能性がある … 続きを読む

カテゴリー: cs.CV | CAVE-Net: Classifying Abnormalities in Video Capsule Endoscopy はコメントを受け付けていません

Low-Light Image Enhancement via Generative Perceptual Priors

要約 低照度 (LL) 画像の可視性の向上、テクスチャの詳細の取得、およびノイズ … 続きを読む

カテゴリー: cs.CV | Low-Light Image Enhancement via Generative Perceptual Priors はコメントを受け付けていません

HisynSeg: Weakly-Supervised Histopathological Image Segmentation via Image-Mixing Synthesis and Consistency Regularization

要約 組織のセマンティック セグメンテーションは、計算病理学における重要なタスク … 続きを読む

カテゴリー: cs.AI, cs.CV | HisynSeg: Weakly-Supervised Histopathological Image Segmentation via Image-Mixing Synthesis and Consistency Regularization はコメントを受け付けていません

Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering

要約 GPT-4o、Gemini、LLaVA、Flamingo などのマルチモー … 続きを読む

カテゴリー: cs.CV | Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering はコメントを受け付けていません

NeRF-DetS: Enhanced Adaptive Spatial-wise Sampling and View-wise Fusion Strategies for NeRF-based Indoor Multi-view 3D Object Detection

要約 屋内シーンでは、オブジェクトの位置とスケールが多様に分布しているため、視覚 … 続きを読む

カテゴリー: cs.CV | NeRF-DetS: Enhanced Adaptive Spatial-wise Sampling and View-wise Fusion Strategies for NeRF-based Indoor Multi-view 3D Object Detection はコメントを受け付けていません