-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
SurgSora: Object-Aware Diffusion Model for Controllable Surgical Video Generation
要約 外科的ビデオ生成は医学教育と研究を強化する可能性がありますが、既存の方法に … 続きを読む
EgoBlind: Towards Egocentric Visual Assistance for the Blind
要約 視覚障害者から収集された最初のエゴセントリックビデオデータセットであるeg … 続きを読む
Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
要約 今日のAIエージェントはほとんどが沈黙しています – 彼らはオ … 続きを読む
HKD4VLM: A Progressive Hybrid Knowledge Distillation Framework for Robust Multimodal Hallucination and Factuality Detection in VLMs
要約 ビジョン言語モデル(VLMS)の急速な進歩に牽引されているため、大規模なマ … 続きを読む
Quizzard@INOVA Challenge 2025 — Track A: Plug-and-Play Technique in Interleaved Multi-Image Model
要約 このペーパーでは、2つの主要な目的について説明します。 第一に、マルチイメ … 続きを読む
PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications
要約 多様な環境とドメインでの堅牢なナビゲーションには、正確な状態推定と透明な意 … 続きを読む
PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications
要約 多様な環境とドメインでの堅牢なナビゲーションには、正確な状態推定と透明な意 … 続きを読む
A Unit Enhancement and Guidance Framework for Audio-Driven Avatar Video Generation
要約 オーディオ駆動型のヒューマンアニメーションテクノロジーは、ヒューマンコンピ … 続きを読む
VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos
要約 大規模なモデルのマルチステップ推論機能を評価するために作成された最初の長い … 続きを読む
Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment
要約 最近の研究では、マルチモーダルの大手言語モデル(MLLM)が解釈可能な評価 … 続きを読む