月別アーカイブ: 2024年5月

Text-to-Vector Generation with Neural Path Representation

要約 ベクター グラフィックスはデジタル アートで広く使用されており、そのスケー … 続きを読む

カテゴリー: cs.CV, cs.GR | Text-to-Vector Generation with Neural Path Representation はコメントを受け付けていません

Enhancing Explainable AI: A Hybrid Approach Combining GradCAM and LRP for CNN Interpretability

要約 GradCAM と LRP 手法の組み合わせを使用して、CNN ベースのモ … 続きを読む

カテゴリー: cs.CV, I.4.0 | Enhancing Explainable AI: A Hybrid Approach Combining GradCAM and LRP for CNN Interpretability はコメントを受け付けていません

Continual Learning of Diffusion Models with Generative Distillation

要約 拡散モデルは、画像合成において最先端のパフォーマンスを実現する強力な生成モ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Continual Learning of Diffusion Models with Generative Distillation はコメントを受け付けていません

FashionEngine: Interactive 3D Human Generation and Editing via Multimodal Controls

要約 私たちは、自然言語、視覚認識、手描きスケッチなどのユーザーフレンドリーなマ … 続きを読む

カテゴリー: cs.CV | FashionEngine: Interactive 3D Human Generation and Editing via Multimodal Controls はコメントを受け付けていません

Multi-View Attentive Contextualization for Multi-View 3D Object Detection

要約 クエリベースのマルチビュー 3D (MV3D) オブジェクト検出における … 続きを読む

カテゴリー: cs.CV | Multi-View Attentive Contextualization for Multi-View 3D Object Detection はコメントを受け付けていません

Hierarchical Neural Operator Transformer with Learnable Frequency-aware Loss Prior for Arbitrary-scale Super-resolution

要約 この研究では、科学データの解像度を向上させるための任意スケールの超解像 ( … 続きを読む

カテゴリー: cs.AI, cs.CV | Hierarchical Neural Operator Transformer with Learnable Frequency-aware Loss Prior for Arbitrary-scale Super-resolution はコメントを受け付けていません

Slicedit: Zero-Shot Video Editing With Text-to-Image Diffusion Models Using Spatio-Temporal Slices

要約 Text-to-image (T2I) 拡散モデルは、画像の合成と編集にお … 続きを読む

カテゴリー: cs.CV | Slicedit: Zero-Shot Video Editing With Text-to-Image Diffusion Models Using Spatio-Temporal Slices はコメントを受け付けていません

Adapting Large Multimodal Models to Distribution Shifts: The Role of In-Context Learning

要約 最近の研究では、大規模マルチモーダル モデル (LMM) が自然分布の変化 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Adapting Large Multimodal Models to Distribution Shifts: The Role of In-Context Learning はコメントを受け付けていません

Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo

要約 我々は、見えないシーンを効率的に再構築できる、マルチビュー ステレオ (M … 続きを読む

カテゴリー: cs.CV | Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo はコメントを受け付けていません

Images that Sound: Composing Images and Sounds on a Single Canvas

要約 スペクトログラムは、私たちの視覚世界にある画像とは大きく異なるサウンドの … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Images that Sound: Composing Images and Sounds on a Single Canvas はコメントを受け付けていません