-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Latent Multimodal Reconstruction for Misinformation Detection
要約 キャプションが画像の起源、コンテキスト、または意味を誤って伝えた誤った画像 … 続きを読む
Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation
要約 自然言語の指示に基づいて目に見えない環境をナビゲートすることは、視覚航海航 … 続きを読む
NeRFlex: Resource-aware Real-time High-quality Rendering of Complex Scenes on Mobile Devices
要約 Neural Radiance Fields(NeRF)は、3D再構成にお … 続きを読む
EVOS: Efficient Implicit Neural Training via EVOlutionary Selector
要約 我々は、陰的神経表現(INR)を高速化するための効率的な学習パラダイムであ … 続きを読む
AutoSSVH: Exploring Automated Frame Sampling for Efficient Self-Supervised Video Hashing
要約 Self-Supervised Video Hashing (SSVH)は … 続きを読む
L-LBVC: Long-Term Motion Estimation and Prediction for Learned Bi-Directional Video Compression
要約 近年、学習型ビデオ圧縮(LVC)が低遅延構成で優れた性能を示すようになった … 続きを読む
FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning
要約 オーディオビジュアル質問応答(AVQA)は、ペアのオーディオビデオ入力に基 … 続きを読む
EVOS: Efficient Implicit Neural Training via EVOlutionary Selector
要約 暗黙の神経表現(INR)を加速するための効率的なトレーニングパラダイムであ … 続きを読む
TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
要約 通信詐欺の検出は、オーディオ信号を推論指向のテキスト分析と統合する高品質の … 続きを読む
TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
要約 通信詐欺の検出は、オーディオ信号を推論指向のテキスト分析と統合する高品質の … 続きを読む