cs.CV」カテゴリーアーカイブ

Analysis and Benchmarking of Extending Blind Face Image Restoration to Videos

要約 ブラインドフェイス復元における最近の進歩により、静止画像に対して高品質の復 … 続きを読む

カテゴリー: cs.CV | Analysis and Benchmarking of Extending Blind Face Image Restoration to Videos はコメントを受け付けていません

MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding

要約 クロスモーダルな対話を通じて複雑な人間の意図を理解するためのマルチモーダル … 続きを読む

カテゴリー: cs.CV | MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding はコメントを受け付けていません

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

要約 このタスクのために実際のビデオに注釈を付けるのは難しいため、ほとんどの最先 … 続きを読む

カテゴリー: cs.CV | CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos はコメントを受け付けていません

On the Effectiveness of Dataset Alignment for Fake Image Detection

要約 潜在拡散モデル (LDM) によって画像生成機能が民主化されるにつれ、偽の … 続きを読む

カテゴリー: cs.CV | On the Effectiveness of Dataset Alignment for Fake Image Detection はコメントを受け付けていません

High-Resolution Frame Interpolation with Patch-based Cascaded Diffusion

要約 最近の進歩にもかかわらず、既存のフレーム補間方法は、非常に高解像度の入力を … 続きを読む

カテゴリー: cs.CV | High-Resolution Frame Interpolation with Patch-based Cascaded Diffusion はコメントを受け付けていません

MoH: Multi-Head Attention as Mixture-of-Head Attention

要約 この作業では、Transformer モデルの中核であるマルチヘッド アテ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | MoH: Multi-Head Attention as Mixture-of-Head Attention はコメントを受け付けていません

TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models

要約 マルチモーダルビデオの理解と生成には、きめの細かい時間ダイナミクスを理解す … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models はコメントを受け付けていません

SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers

要約 最大 4096$\times$4096 の解像度の画像を効率的に生成できる … 続きを読む

カテゴリー: cs.CV | SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers はコメントを受け付けていません

Ensemble of ConvNeXt V2 and MaxViT for Long-Tailed CXR Classification with View-Based Aggregation

要約 この研究では、MICCAI 2024 CXR-LT チャレンジのソリューシ … 続きを読む

カテゴリー: cs.CV | Ensemble of ConvNeXt V2 and MaxViT for Long-Tailed CXR Classification with View-Based Aggregation はコメントを受け付けていません

4-LEGS: 4D Language Embedded Gaussian Splatting

要約 ニューラル表現の出現は、幅広い 3D シーンをデジタルで表示する手段に革命 … 続きを読む

カテゴリー: cs.CV, cs.GR | 4-LEGS: 4D Language Embedded Gaussian Splatting はコメントを受け付けていません