-
最近の投稿
- Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles
- Reinforcement Learning-based Fault-Tolerant Control for Quadrotor with Online Transformer Adaptation
- Enhanced Importance Sampling through Latent Space Exploration in Normalizing Flows
- Enhancing Scene Coordinate Regression with Efficient Keypoint Detection and Sequential Information
- Constrained Factor Graph Optimization for Robust Networked Pedestrian Inertial Navigation
-
最近のコメント
表示できるコメントはありません。 cs.AI (38035) cs.CL (28747) cs.CV (43624) cs.HC (2908) cs.LG (42962) cs.RO (22623) cs.SY (3469) eess.IV (5057) eess.SY (3461) stat.ML (5597)
「cs.MM」カテゴリーアーカイブ
Audio-visual Event Localization on Portrait Mode Short Videos
要約 視聴覚イベントのローカリゼーション(AVEL)は、マルチモーダルシーンの理 … 続きを読む
A Multimedia Analytics Model for the Foundation Model Era
要約 基礎モデルとエージェント人工知能の急速な進歩は、人間と分析システムの間のよ … 続きを読む
Latent Multimodal Reconstruction for Misinformation Detection
要約 キャプションが画像の起源、コンテキスト、または意味を誤って伝えた誤った画像 … 続きを読む
Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation
要約 自然言語の指示に基づいて目に見えない環境をナビゲートすることは、視覚航海航 … 続きを読む
NeRFlex: Resource-aware Real-time High-quality Rendering of Complex Scenes on Mobile Devices
要約 Neural Radiance Fields(NeRF)は、3D再構成にお … 続きを読む
EVOS: Efficient Implicit Neural Training via EVOlutionary Selector
要約 我々は、陰的神経表現(INR)を高速化するための効率的な学習パラダイムであ … 続きを読む
AutoSSVH: Exploring Automated Frame Sampling for Efficient Self-Supervised Video Hashing
要約 Self-Supervised Video Hashing (SSVH)は … 続きを読む
L-LBVC: Long-Term Motion Estimation and Prediction for Learned Bi-Directional Video Compression
要約 近年、学習型ビデオ圧縮(LVC)が低遅延構成で優れた性能を示すようになった … 続きを読む
FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning
要約 オーディオビジュアル質問応答(AVQA)は、ペアのオーディオビデオ入力に基 … 続きを読む
EVOS: Efficient Implicit Neural Training via EVOlutionary Selector
要約 暗黙の神経表現(INR)を加速するための効率的なトレーニングパラダイムであ … 続きを読む