-
最近の投稿
- Grasp EveryThing (GET): 1-DoF, 3-Fingered Gripper with Tactile Sensing for Robust Grasping
- Neural Inertial Odometry from Lie Events
- Physical synchronization of soft self-oscillating limbs for fast and autonomous locomotion
- CRADMap: Applied Distributed Volumetric Mapping with 5G-Connected Multi-Robots and 4D Radar Perception
- Learning Rock Pushability on Rough Planetary Terrain
-
最近のコメント
表示できるコメントはありません。 cs.AI (38176) cs.CL (28850) cs.CV (43741) cs.HC (2915) cs.LG (43106) cs.RO (22722) cs.SY (3490) eess.IV (5071) eess.SY (3482) stat.ML (5612)
「cs.MM」カテゴリーアーカイブ
Video Seal: Open and Efficient Video Watermarking
要約 AI によって生成されたコンテンツと洗練されたビデオ編集ツールの急増により … 続きを読む
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition
要約 マルチモーダル大規模言語モデル (MLLM) が進化するにつれて、より多用 … 続きを読む
Representing Long Volumetric Video with Temporal Gaussian Hierarchy
要約 この論文は、マルチビュー RGB ビデオから長いボリューム ビデオを再構成 … 続きを読む
PointTalk: Audio-Driven Dynamic Lip Point Cloud for 3D Gaussian-based Talking Head Synthesis
要約 任意の音声オーディオを使用したトーキングヘッド合成は、デジタル ヒューマン … 続きを読む
A Dual-Module Denoising Approach with Curriculum Learning for Enhancing Multimodal Aspect-Based Sentiment Analysis
要約 マルチモーダル アスペクトベース感情分析 (MABSA) は、テキストと画 … 続きを読む
RoboMM: All-in-One Multimodal Large Model for Robotic Manipulation
要約 近年、ロボット工学は、より大きなモデルと大規模なデータセットの統合を通じて … 続きを読む
MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion
要約 テキストベースの人間のモーション生成のための、新しいマルチパート融合ベース … 続きを読む
STIV: Scalable Text and Image Conditioned Video Generation
要約 ビデオ生成の分野は目覚ましい進歩を遂げていますが、堅牢でスケーラブルなモデ … 続きを読む
AI TrackMate: Finally, Someone Who Will Give Your Music More Than Just ‘Sounds Great!’
要約 「ベッドルームプロデューサー」の台頭により、音楽制作が民主化される一方で、 … 続きを読む