- 
最近の投稿- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
 
- 
最近のコメント表示できるコメントはありません。
- cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830) 
「cs.MM」カテゴリーアーカイブ
Evaluating Image Review Ability of Vision Language Models
要約 大規模ビジョン言語モデル (LVLM) は、単一のモデルで画像とテキスト入 … 続きを読む
Unified Hallucination Detection for Multimodal Large Language Models
要約 マルチモーダル タスクの大幅な進歩にも関わらず、マルチモーダル大規模言語モ … 続きを読む
Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond
要約 生成言語モデルの最近の進歩により、文書から知識を記憶し、知識を思い出してユ … 続きを読む
UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
要約 マルチカメラ 3D 認識は、自動運転における著名な研究分野として浮上してお … 続きを読む
Lester: rotoscope animation through video object segmentation and tracking
要約 この記事では、ビデオからレトロスタイルの 2D アニメーションを自動的に合 … 続きを読む
MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding
要約 知覚では、複数の感覚情報が統合されて、2D ビューからの視覚情報が 3D … 続きを読む
Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio
要約 我々は、プロトタイプ学習に基づいた音楽オーディオ分類の解釈可能なモデル P … 続きを読む
LL-GABR: Energy Efficient Live Video Streaming Using Reinforcement Learning
要約 近年、ライブ ビデオ ストリーミング用のアダプティブ ビットレート (AB … 続きを読む
Customizable Perturbation Synthesis for Robust SLAM Benchmarking
要約 堅牢性は、非構造化環境、特に同時ローカリゼーションとマッピング (SLAM … 続きを読む
