cs.MM」カテゴリーアーカイブ

Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion

要約 拡散モデルは、テキストからイメージの生成の主流のアーキテクチャとなっており … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion はコメントを受け付けていません

TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

要約 ビデオは、カメラ、シーン、アクション、属性など、時間の経過とともに動的な関 … 続きを読む

カテゴリー: cs.CV, cs.DB, cs.MM | TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos はコメントを受け付けていません

Creatively Upscaling Images with Global-Regional Priors

要約 現代の拡散モデルは、テキストからイメージの生成において顕著な能力を示してい … 続きを読む

カテゴリー: cs.CV, cs.MM | Creatively Upscaling Images with Global-Regional Priors はコメントを受け付けていません

Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On

要約 拡散モデルは、Virtual Try-On(VTON)タスクで予備的な成功 … 続きを読む

カテゴリー: cs.CV, cs.MM | Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On はコメントを受け付けていません

Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction

要約 ビデオバーチャルトライオンは、特定の衣服を備えたビデオで主題をシームレスに … 続きを読む

カテゴリー: cs.CV, cs.MM | Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction はコメントを受け付けていません

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

要約 視覚生成モデルは、テキストプロンプトから現実的な画像を作成する際に顕著な進 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning はコメントを受け付けていません

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

要約 視聴覚学習の最近の進歩により、モダリティ全体の学習表現における有望な結果が … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment はコメントを受け付けていません

Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

要約 視覚的なキューを統合することにより、騒々しい環境での視聴覚音声認識(AVS … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach はコメントを受け付けていません

Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization

要約 犬の樹皮を聞いて、駐車した車を見るためだけに音に向かって曲がると想像してく … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization はコメントを受け付けていません

Face Consistency Benchmark for GenAI Video

要約 人工知能によって駆動されるビデオ生成は、動的で現実的なコンテンツの作成を可 … 続きを読む

カテゴリー: cs.CV, cs.MM | Face Consistency Benchmark for GenAI Video はコメントを受け付けていません