-
最近の投稿
- Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL
- Nearly Optimal Nonlinear Safe Control with BaS-SDRE
- Field Report on Ground Penetrating Radar for Localization at the Mars Desert Research Station
- LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning
- CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (36968) cs.CL (27986) cs.CV (42734) cs.HC (2830) cs.LG (41908) cs.RO (21895) cs.SY (3335) eess.IV (4980) eess.SY (3327) stat.ML (5485)
「cs.MM」カテゴリーアーカイブ
Video Seal: Open and Efficient Video Watermarking
要約 AI によって生成されたコンテンツと洗練されたビデオ編集ツールの急増により … 続きを読む
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition
要約 マルチモーダル大規模言語モデル (MLLM) が進化するにつれて、より多用 … 続きを読む
Representing Long Volumetric Video with Temporal Gaussian Hierarchy
要約 この論文は、マルチビュー RGB ビデオから長いボリューム ビデオを再構成 … 続きを読む
PointTalk: Audio-Driven Dynamic Lip Point Cloud for 3D Gaussian-based Talking Head Synthesis
要約 任意の音声オーディオを使用したトーキングヘッド合成は、デジタル ヒューマン … 続きを読む
A Dual-Module Denoising Approach with Curriculum Learning for Enhancing Multimodal Aspect-Based Sentiment Analysis
要約 マルチモーダル アスペクトベース感情分析 (MABSA) は、テキストと画 … 続きを読む
RoboMM: All-in-One Multimodal Large Model for Robotic Manipulation
要約 近年、ロボット工学は、より大きなモデルと大規模なデータセットの統合を通じて … 続きを読む
MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion
要約 テキストベースの人間のモーション生成のための、新しいマルチパート融合ベース … 続きを読む
STIV: Scalable Text and Image Conditioned Video Generation
要約 ビデオ生成の分野は目覚ましい進歩を遂げていますが、堅牢でスケーラブルなモデ … 続きを読む
AI TrackMate: Finally, Someone Who Will Give Your Music More Than Just ‘Sounds Great!’
要約 「ベッドルームプロデューサー」の台頭により、音楽制作が民主化される一方で、 … 続きを読む