-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis
要約 マルチモーダル感情分析 (MSA) は、言語、視覚、音声などの異種モダリテ … 続きを読む
Official-NV: An LLM-Generated News Video Dataset for Multimodal Fake News Detection
要約 ニュースメディア、特にビデオニュースメディアは日常生活のあらゆる側面に浸透 … 続きを読む
Enhancing Vision-Language Tracking by Effectively Converting Textual Cues into Visual Cues
要約 Vision-Language Tracking (VLT) は、視覚的な … 続きを読む
Language-Guided Diffusion Model for Visual Grounding
要約 ビジュアル グラウンディング (VG) タスクには、提供された言語フレーズ … 続きを読む
RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction
要約 拡散確率モデル (DPM) は、高忠実度画像合成の事実上のアプローチとして … 続きを読む
RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction
要約 拡散確率モデル (DPM) は、高忠実度画像合成の事実上のアプローチとして … 続きを読む
DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation
要約 Sora のようなビデオ生成モデルは、マルチモーダル拡散トランス MM-D … 続きを読む
ANID: How Far Are We? Evaluating the Discrepancies Between AI-synthesized Images and Natural Images through Multimodal Guidance
要約 急速に進化する人工知能生成コンテンツ (AIGC) の分野における重要な課 … 続きを読む
Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls
要約 サウンド デザイナーやフォーリー アーティストは通常、ビデオ内の関心の … 続きを読む
Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM
要約 テキストからビデオへのモデルは、高品質のテキストとビデオのペアの最適化を通 … 続きを読む