-
最近の投稿
- Automating eHMI Action Design with LLMs for Automated Vehicle Communication
- ManiTaskGen: A Comprehensive Task Generator for Benchmarking and Improving Vision-Language Agents on Embodied Decision-Making
- Map Space Belief Prediction for Manipulation-Enhanced Mapping
- Interactive OT Gym: A Reinforcement Learning-Based Interactive Optical tweezer (OT)-Driven Microrobotics Simulation Platform
- STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation
-
最近のコメント
表示できるコメントはありません。 cs.AI (38778) cs.CL (29316) cs.CV (44217) cs.HC (2951) cs.LG (43684) cs.RO (23114) cs.SY (3537) eess.IV (5099) eess.SY (3529) stat.ML (5683)
「cs.MM」カテゴリーアーカイブ
VoxAging: Continuously Tracking Speaker Aging with a Large-Scale Longitudinal Dataset in English and Mandarin
要約 スピーカー検証システムのパフォーマンスは、スピーカーの老化によって悪影響を … 続きを読む
LazyVLM: Neuro-Symbolic Approach to Video Analytics
要約 現在のビデオ分析アプローチは、柔軟性と効率性の基本的なトレードオフに直面し … 続きを読む
Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement
要約 音声強化(SE)は、騒々しい環境での音声の品質と明瞭度を改善することを目的 … 続きを読む
The Many Challenges of Human-Like Agents in Virtual Game Environments
要約 人間のようなエージェントは、ゲームやそれ以降のますます重要なトピックです。 … 続きを読む
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion
要約 拡散モデルは、テキストからイメージの生成の主流のアーキテクチャとなっており … 続きを読む
TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos
要約 ビデオは、カメラ、シーン、アクション、属性など、時間の経過とともに動的な関 … 続きを読む
Creatively Upscaling Images with Global-Regional Priors
要約 現代の拡散モデルは、テキストからイメージの生成において顕著な能力を示してい … 続きを読む
Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On
要約 拡散モデルは、Virtual Try-On(VTON)タスクで予備的な成功 … 続きを読む
Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction
要約 ビデオバーチャルトライオンは、特定の衣服を備えたビデオで主題をシームレスに … 続きを読む