月別アーカイブ: 2024年4月

$CrowdDiff$: Multi-hypothesis Crowd Density Estimation using Diffusion Models

要約 群衆計数は群衆分析における基本的な問題であり、一般的には群衆密度マップを推 … 続きを読む

カテゴリー: cs.CV | $CrowdDiff$: Multi-hypothesis Crowd Density Estimation using Diffusion Models はコメントを受け付けていません

DiffBody: Human Body Restoration by Imagining with Generative Diffusion Prior

要約 人体復元は、人体に関連する様々なアプリケーションにおいて重要な役割を果たし … 続きを読む

カテゴリー: cs.CV | DiffBody: Human Body Restoration by Imagining with Generative Diffusion Prior はコメントを受け付けていません

Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation

要約 参照ビデオセグメンテーションは、自然言語表現に依存してオブジェクトを識別し … 続きを読む

カテゴリー: cs.CV | Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation はコメントを受け付けていません

OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views

要約 CLIPのような大規模な視覚言語モデル(VLM)は、画像から任意の概念をゼ … 続きを読む

カテゴリー: cs.CV | OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views はコメントを受け付けていません

The More You See in 2D, the More You Perceive in 3D

要約 人間は、過去の経験に基づいて物体の2次元画像から3次元構造を推測し、より多 … 続きを読む

カテゴリー: cs.CV | The More You See in 2D, the More You Perceive in 3D はコメントを受け付けていません

CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

要約 拡散モデルは、テキストから画像への生成の分野で大きな成功を収めている。しか … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching はコメントを受け付けていません

RaFE: Generative Radiance Fields Restoration

要約 NeRF(Neural Radiance Fields)は、新しい視点合成 … 続きを読む

カテゴリー: cs.CV | RaFE: Generative Radiance Fields Restoration はコメントを受け付けていません

MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation

要約 我々はMVD-Fusionを発表する。MVD-Fusionは、マルチビュー … 続きを読む

カテゴリー: cs.CV | MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation はコメントを受け付けていません

OW-VISCap: Open-World Video Instance Segmentation and Captioning

要約 オープンワールド映像のインスタンス分割は重要な映像理解タスクである。しかし … 続きを読む

カテゴリー: cs.AI, cs.CV | OW-VISCap: Open-World Video Instance Segmentation and Captioning はコメントを受け付けていません

Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning

要約 シーンの3次元形状を1つのビューから復元することは、コンピュータビジョンに … 続きを読む

カテゴリー: cs.CV | Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning はコメントを受け付けていません