cs.CV」カテゴリーアーカイブ

What Makes a Maze Look Like a Maze?

要約 人間の視覚的理解のユニークな側面は、抽象的な概念を柔軟に解釈する能力です。 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | What Makes a Maze Look Like a Maze? はコメントを受け付けていません

ComAlign: Compositional Alignment in Vision-Language Models

要約 CLIP のようなビジョン言語モデル (VLM) は、下流のタスクに転送可 … 続きを読む

カテゴリー: cs.CV, cs.MM | ComAlign: Compositional Alignment in Vision-Language Models はコメントを受け付けていません

VI3DRM:Towards meticulous 3D Reconstruction from Sparse Views via Photo-Realistic Novel View Synthesis

要約 最近では、Zero-1-2-3 のような手法が単一ビュー ベースの 3D … 続きを読む

カテゴリー: cs.CV | VI3DRM:Towards meticulous 3D Reconstruction from Sparse Views via Photo-Realistic Novel View Synthesis はコメントを受け付けていません

LT3SD: Latent Trees for 3D Scene Diffusion

要約 我々は、大規模な 3D シーン生成のための新しい潜在拡散モデル LT3SD … 続きを読む

カテゴリー: cs.AI, cs.CV | LT3SD: Latent Trees for 3D Scene Diffusion はコメントを受け付けていません

What Makes a Face Look like a Hat: Decoupling Low-level and High-level Visual Properties with Image Triplets

要約 視覚的な意思決定では、オブジェクト カテゴリなどの高レベルの機能が選択に大 … 続きを読む

カテゴリー: cs.CV, q-bio.NC | What Makes a Face Look like a Hat: Decoupling Low-level and High-level Visual Properties with Image Triplets はコメントを受け付けていません

Model Ensemble for Brain Tumor Segmentation in Magnetic Resonance Imaging

要約 マルチパラメトリック磁気共鳴画像法で脳腫瘍をセグメント化することにより、臨 … 続きを読む

カテゴリー: cs.CV, eess.IV | Model Ensemble for Brain Tumor Segmentation in Magnetic Resonance Imaging はコメントを受け付けていません

IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation

要約 Text-to-Image (T2I) 拡散モデルは、個々のインスタンスの … 続きを読む

カテゴリー: cs.AI, cs.CV | IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation はコメントを受け付けていません

Style Based Clustering of Visual Artworks

要約 スタイルに基づいて芸術作品をクラスタリングすることには、芸術の推奨、スタイ … 続きを読む

カテゴリー: cs.CV, cs.LG, I.4.8 | Style Based Clustering of Visual Artworks はコメントを受け付けていません

TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder

要約 テキストから画像へのモデルにおける最近の進歩により、パーソナライズされた画 … 続きを読む

カテゴリー: cs.CV | TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder はコメントを受け付けていません

Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding

要約 パノプティック ナラティブ グラウンディング (PNG) では、その中核と … 続きを読む

カテゴリー: cs.CV | Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding はコメントを受け付けていません