「cs.MM」カテゴリーアーカイブ

VoxAging: Continuously Tracking Speaker Aging with a Large-Scale Longitudinal Dataset in English and Mandarin

投稿日: 2025年5月28日作成者: jarxiv

要約スピーカー検証システムのパフォーマンスは、スピーカーの老化によって悪影響を … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD | コメントを受け付けていません

LazyVLM: Neuro-Symbolic Approach to Video Analytics

投稿日: 2025年5月28日作成者: jarxiv

要約現在のビデオ分析アプローチは、柔軟性と効率性の基本的なトレードオフに直面し … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.DB, cs.IR, cs.MM | コメントを受け付けていません

Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement

投稿日: 2025年5月27日作成者: jarxiv

要約音声強化（SE）は、騒々しい環境での音声の品質と明瞭度を改善することを目的 … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

The Many Challenges of Human-Like Agents in Virtual Game Environments

投稿日: 2025年5月27日作成者: jarxiv

要約人間のようなエージェントは、ゲームやそれ以降のますます重要なトピックです。 … 続きを読む →

カテゴリー: 68T01, cs.AI, cs.HC, cs.MM, H.1.2 | コメントを受け付けていません

Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion

投稿日: 2025年5月27日作成者: jarxiv

要約拡散モデルは、テキストからイメージの生成の主流のアーキテクチャとなっており … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

投稿日: 2025年5月27日作成者: jarxiv

要約ビデオは、カメラ、シーン、アクション、属性など、時間の経過とともに動的な関 … 続きを読む →

カテゴリー: cs.CV, cs.DB, cs.MM | コメントを受け付けていません

Creatively Upscaling Images with Global-Regional Priors

投稿日: 2025年5月23日作成者: jarxiv

要約現代の拡散モデルは、テキストからイメージの生成において顕著な能力を示してい … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On

投稿日: 2025年5月23日作成者: jarxiv

要約拡散モデルは、Virtual Try-On（VTON）タスクで予備的な成功 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction

投稿日: 2025年5月23日作成者: jarxiv

要約ビデオバーチャルトライオンは、特定の衣服を備えたビデオで主題をシームレスに … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

投稿日: 2025年5月23日作成者: jarxiv

要約視覚生成モデルは、テキストプロンプトから現実的な画像を作成する際に顕著な進 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

VoxAging: Continuously Tracking Speaker Aging with a Large-Scale Longitudinal Dataset in English and Mandarin

LazyVLM: Neuro-Symbolic Approach to Video Analytics

Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement

The Many Challenges of Human-Like Agents in Virtual Game Environments

Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion

TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

Creatively Upscaling Images with Global-Regional Priors

Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On

Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

最近の投稿

最近のコメント

アーカイブ

カテゴリー