-
最近の投稿
- 3D Water Quality Mapping using Invariant Extended Kalman Filtering for Underwater Robot Localization
- Hybrid Visual Servoing of Tendon-driven Continuum Robots
- Embodying Control in Soft Multistable Grippers from morphofunctional co-design
- View-Invariant Policy Learning via Zero-Shot Novel View Synthesis
- ModSkill: Physical Character Skill Modularization
-
最近のコメント
表示できるコメントはありません。 cs.AI (34028) cs.CL (25726) cs.CR (2616) cs.CV (39965) cs.LG (39031) cs.RO (19850) cs.SY (3019) eess.IV (4757) eess.SY (3013) stat.ML (5150)
「cs.MM」カテゴリーアーカイブ
DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis
要約 マルチモーダル感情分析 (MSA) は、言語、視覚、音声などの異種モダリテ … 続きを読む
Official-NV: An LLM-Generated News Video Dataset for Multimodal Fake News Detection
要約 ニュースメディア、特にビデオニュースメディアは日常生活のあらゆる側面に浸透 … 続きを読む
Enhancing Vision-Language Tracking by Effectively Converting Textual Cues into Visual Cues
要約 Vision-Language Tracking (VLT) は、視覚的な … 続きを読む
Language-Guided Diffusion Model for Visual Grounding
要約 ビジュアル グラウンディング (VG) タスクには、提供された言語フレーズ … 続きを読む
RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction
要約 拡散確率モデル (DPM) は、高忠実度画像合成の事実上のアプローチとして … 続きを読む
RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction
要約 拡散確率モデル (DPM) は、高忠実度画像合成の事実上のアプローチとして … 続きを読む
DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation
要約 Sora のようなビデオ生成モデルは、マルチモーダル拡散トランス MM-D … 続きを読む
ANID: How Far Are We? Evaluating the Discrepancies Between AI-synthesized Images and Natural Images through Multimodal Guidance
要約 急速に進化する人工知能生成コンテンツ (AIGC) の分野における重要な課 … 続きを読む
Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls
要約 サウンド デザイナーやフォーリー アーティストは通常、ビデオ内の関心の … 続きを読む
Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM
要約 テキストからビデオへのモデルは、高品質のテキストとビデオのペアの最適化を通 … 続きを読む