「cs.CV」カテゴリーアーカイブ

DepthFM: Fast Monocular Depth Estimation with Flow Matching

投稿日: 2024年12月20日作成者: jarxiv

要約現在の識別的深度推定方法では、ぼやけたアーティファクトが生成されることがよ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search

投稿日: 2024年12月20日作成者: jarxiv

要約テキストベースの人物検索 (TBPS) の領域では、主流の手法は、テキスト … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Does VLM Classification Benefit from LLM Description Semantics?

投稿日: 2024年12月20日作成者: jarxiv

要約画像をテキストで正確に記述することは、説明可能な AI の基礎です。 CL … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Parallelized Autoregressive Visual Generation

投稿日: 2024年12月20日作成者: jarxiv

要約自己回帰モデルは、ビジュアル生成のための強力なアプローチとして登場しました … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Jet: A Modern Transformer-Based Normalizing Flow

投稿日: 2024年12月20日作成者: jarxiv

要約これまで、生成フローの正規化は、自然画像の生成モデルの有望なクラスとして浮 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Leveraging Color Channel Independence for Improved Unsupervised Object Detection

投稿日: 2024年12月20日作成者: jarxiv

要約オブジェクト中心のアーキテクチャは、ビジュアルシーンから個別のオブジェク … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, I.2.10 | コメントを受け付けていません

Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM

投稿日: 2024年12月20日作成者: jarxiv

要約テキストからビデオへのモデルは、高品質のテキストとビデオのペアの最適化を通 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization

投稿日: 2024年12月20日作成者: jarxiv

要約近年、テキストからビデオ (T2V) 生成の分野が大幅に進歩しました。こ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SqueezeMe: Efficient Gaussian Avatars for VR

投稿日: 2024年12月20日作成者: jarxiv

要約ガウススプラッティングにより、前例のないレベルの視覚品質を備えたリアルタ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Tracing the Roots: Leveraging Temporal Dynamics in Diffusion Trajectories for Origin Attribution

投稿日: 2024年12月20日作成者: jarxiv

要約拡散モデルは画像合成に革命をもたらし、近年大きな研究の関心を集めています。 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

DepthFM: Fast Monocular Depth Estimation with Flow Matching

Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search

Does VLM Classification Benefit from LLM Description Semantics?

Parallelized Autoregressive Visual Generation

Jet: A Modern Transformer-Based Normalizing Flow

Leveraging Color Channel Independence for Improved Unsupervised Object Detection

Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM

OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization

SqueezeMe: Efficient Gaussian Avatars for VR

Tracing the Roots: Leveraging Temporal Dynamics in Diffusion Trajectories for Origin Attribution

最近の投稿

最近のコメント

アーカイブ

カテゴリー