-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
CasualHDRSplat: Robust High Dynamic Range 3D Gaussian Splatting from Casually Captured Videos
要約 最近、ニューラル放射輝度フィールド(NERF)や3Dガウスのスプラッティン … 続きを読む
TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis
要約 マルチモーダル感情分析(MSA)は、言語、視覚、音響のモダリティを活用する … 続きを読む
AudioX: Diffusion Transformer for Anything-to-Audio Generation
要約 オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上し … 続きを読む
4D Multimodal Co-attention Fusion Network with Latent Contrastive Alignment for Alzheimer’s Diagnosis
要約 マルチモーダルニューロイメージングは、人間の脳組織と疾患関連のダイナミ … 続きを読む
VLM as Policy: Common-Law Content Moderation Framework for Short Video Platform
要約 指数関数的に成長する短いビデオプラットフォーム(SVP)は、特に未成年者に … 続きを読む
Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models
要約 人間のビデオから操作タスクを実行することを学ぶことは、ロボットを教えるため … 続きを読む
SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs
要約 クロスモーダル検索(CMR)は、マルチメディア研究の基本的なタスクであり、 … 続きを読む
HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation
要約 シーンレベルの3D世代は、マルチメディアとコンピューターグラフィックスの重 … 続きを読む
Multimodal LLMs Can Reason about Aesthetics in Zero-Shot
要約 生成芸術の急速な進歩は、視覚的に心地よいイメージの作成を民主化しました。 … 続きを読む