-
最近の投稿
- Design of a Visual Pose Estimation Algorithm for Moon Landing
- A novel step-by-step procedure for the kinematic calibration of robots using a single draw-wire encoder
- Ultra-High-Frequency Harmony: mmWave Radar and Event Camera Orchestrate Accurate Drone Landing
- Geometric Freeze-Tag Problem
- A Dual-Motor Actuator for Ceiling Robots with High Force and High Speed Capabilities
-
最近のコメント
表示できるコメントはありません。 cs.AI (34107) cs.CL (25783) cs.CR (2623) cs.CV (40027) cs.LG (39092) cs.RO (19895) cs.SY (3026) eess.IV (4764) eess.SY (3020) stat.ML (5162)
「cs.MM」カテゴリーアーカイブ
A multi-purpose automatic editing system based on lecture semantics for remote education
要約 遠隔授業は、その利便性と安全性により、特にパンデミックのような極端な状況下 … 続きを読む
Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models
要約 最近、単一の統合モデルを使用してさまざまなオーディオ タスクに同時に取り組 … 続きを読む
Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks
要約 この論文では、テーブルトップ ロール プレイング ゲーム (TRPG) の … 続きを読む
Learning to Unify Audio, Visual and Text for Audio-Enhanced Multilingual Visual Answer Localization
要約 多言語ビジュアル回答ローカリゼーション (MVAL) の目標は、特定の多言 … 続きを読む
3D Audio-Visual Segmentation
要約 シーン中の発音体を認識することは、具現化AIにおける長年の課題であり、ロボ … 続きを読む
Diffusion-based Generative Multicasting with Intent-aware Semantic Decomposition
要約 生成拡散モデル(GDM)は近年、将来のワイヤレスネットワークにおいて非常に … 続きを読む
Towards Robust Multimodal Sentiment Analysis with Incomplete Data
要約 マルチモーダル感情分析(MSA)の分野では最近、データの不完全性という問題 … 続きを読む
Aligning Audio-Visual Joint Representations with an Agentic Workflow
要約 ビジュアル コンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む
Aligning Audio-Visual Joint Representations with an Agentic Workflow
要約 ビジュアル コンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む