cs.CV」カテゴリーアーカイブ

ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation

要約 テキストから画像への生成の実際の使用は、単純なモノリシック モデルから、複 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.GR | コメントする

RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection

要約 3D 点群と 2D RGB 画像を利用して製品の異常領域を特定するマルチモ … 続きを読む

カテゴリー: cs.CV, cs.MM | コメントする

VitaGlyph: Vitalizing Artistic Typography with Flexible Dual-branch Diffusion Models

要約 芸術的なタイポグラフィーは、入力された文字の意味を想像しやすく、読みやすい … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

LEOPARD : A Vision Language Model For Text-Rich Multi-Image Tasks

要約 テキストが全体的な理解を導く中心的な視覚要素として機能する、テキストが豊富 … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする

ImageFolder: Autoregressive Image Generation with Folded Tokens

要約 画像トークナイザーは、モデリング用の潜在表現を構築するため、拡散モデル ( … 続きを読む

カテゴリー: cs.CV | コメントする

Spec-Gaussian: Anisotropic View-Dependent Appearance for 3D Gaussian Splatting

要約 3D ガウス スプラッティング (3D-GS) の最近の進歩により、最新の … 続きを読む

カテゴリー: cs.CV | コメントする

Concept-skill Transferability-based Data Selection for Large Vision-Language Models

要約 大規模ビジョン言語モデル (LVLM) が広範囲のビジョン言語 (VL) … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする

SegHeD: Segmentation of Heterogeneous Data for Multiple Sclerosis Lesions with Anatomical Constraints

要約 脳磁気共鳴 (MR) 画像からの病変とその縦方向の進行の評価は、多発性硬化 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

要約 基礎モデルは、時系列予測 (TSF) における有望なアプローチとして浮上し … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

SegEarth-OV: Towards Traning-Free Open-Vocabulary Segmentation for Remote Sensing Images

要約 リモートセンシング画像は、農業、水資源、軍事、災害救援などの分野で、かけが … 続きを読む

カテゴリー: cs.CV | コメントする