-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising
要約 このペーパーでは、ゼロショットオーディオビデオ編集を紹介します。これは、追 … 続きを読む
AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers
要約 オーディオ駆動型のビデオ生成の最近の進歩にもかかわらず、既存の方法は主に顔 … 続きを読む
GiVE: Guiding Visual Encoder to Perceive Overlooked Information
要約 マルチモーダルの大手言語モデルは、テキストからビデオへの生成や視覚的な質問 … 続きを読む
Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation
要約 音楽によって駆動される自然で多様でリズミカルな人間のダンスの動きを自動的に … 続きを読む
LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos
要約 ビデオ理解における印象的な進歩にもかかわらず、ほとんどの努力は粗いまたは視 … 続きを読む
Do image and video quality metrics model low-level human vision?
要約 SSIM、LPIPS、VMAFなどの画像およびビデオの品質メトリックは、評 … 続きを読む
VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness
要約 最近の大規模なテキストからイメージまでの拡散モデルは、フォトリアリスティッ … 続きを読む
MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance
要約 最近のビデオ生成の進歩により、視覚の質と時間的一貫性の著しい改善がもたらさ … 続きを読む
Machine Unlearning in Hyperbolic vs. Euclidean Multimodal Contrastive Learning: Adapting Alignment Calibration to MERU
要約 大規模な事前訓練モデルでの選択的な概念除去にとって、マシンの未学習方法はま … 続きを読む