-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Evaluating Image Review Ability of Vision Language Models
要約 大規模ビジョン言語モデル (LVLM) は、単一のモデルで画像とテキスト入 … 続きを読む
Unified Hallucination Detection for Multimodal Large Language Models
要約 マルチモーダル タスクの大幅な進歩にも関わらず、マルチモーダル大規模言語モ … 続きを読む
Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond
要約 生成言語モデルの最近の進歩により、文書から知識を記憶し、知識を思い出してユ … 続きを読む
UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
要約 マルチカメラ 3D 認識は、自動運転における著名な研究分野として浮上してお … 続きを読む
Lester: rotoscope animation through video object segmentation and tracking
要約 この記事では、ビデオからレトロスタイルの 2D アニメーションを自動的に合 … 続きを読む
MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding
要約 知覚では、複数の感覚情報が統合されて、2D ビューからの視覚情報が 3D … 続きを読む
Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio
要約 我々は、プロトタイプ学習に基づいた音楽オーディオ分類の解釈可能なモデル P … 続きを読む
LL-GABR: Energy Efficient Live Video Streaming Using Reinforcement Learning
要約 近年、ライブ ビデオ ストリーミング用のアダプティブ ビットレート (AB … 続きを読む
Customizable Perturbation Synthesis for Robust SLAM Benchmarking
要約 堅牢性は、非構造化環境、特に同時ローカリゼーションとマッピング (SLAM … 続きを読む