-
最近の投稿
- Human-Robot Dialogue Annotation for Multi-Modal Common Ground
- Anticipatory Planning for Performant Long-Lived Robot in Large-Scale Home-Like Environments
- SCOUT: A Situated and Multi-Modal Human-Robot Dialogue Corpus
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
- ForestAlign: Automatic Forest Structure-based Alignment for Multi-view TLS and ALS Point Clouds
-
最近のコメント
表示できるコメントはありません。 cs.AI (29925) cs.CL (22599) cs.CR (2321) cs.CV (36300) cs.LG (34746) cs.RO (17366) cs.SY (2670) eess.IV (4416) eess.SY (2664) stat.ML (4635)
「cs.MM」カテゴリーアーカイブ
A Hierarchical Compression Technique for 3D Gaussian Splatting Compression
要約 3D ガウス スプラッティング (GS) は、新しいビュー合成において優れ … 続きを読む
A multi-purpose automatic editing system based on lecture semantics for remote education
要約 遠隔授業は、その利便性と安全性により、特にパンデミックのような極端な状況下 … 続きを読む
Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models
要約 最近、単一の統合モデルを使用してさまざまなオーディオ タスクに同時に取り組 … 続きを読む
Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks
要約 この論文では、テーブルトップ ロール プレイング ゲーム (TRPG) の … 続きを読む
Learning to Unify Audio, Visual and Text for Audio-Enhanced Multilingual Visual Answer Localization
要約 多言語ビジュアル回答ローカリゼーション (MVAL) の目標は、特定の多言 … 続きを読む
3D Audio-Visual Segmentation
要約 シーン中の発音体を認識することは、具現化AIにおける長年の課題であり、ロボ … 続きを読む
Diffusion-based Generative Multicasting with Intent-aware Semantic Decomposition
要約 生成拡散モデル(GDM)は近年、将来のワイヤレスネットワークにおいて非常に … 続きを読む
Towards Robust Multimodal Sentiment Analysis with Incomplete Data
要約 マルチモーダル感情分析(MSA)の分野では最近、データの不完全性という問題 … 続きを読む
Aligning Audio-Visual Joint Representations with an Agentic Workflow
要約 ビジュアル コンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む