-
最近の投稿
- CHARM: Considering Human Attributes for Reinforcement Modeling
- IKDiffuser: Fast and Diverse Inverse Kinematics Solution Generation for Multi-arm Robotic Systems
- SuperPoint-SLAM3: Augmenting ORB-SLAM3 with Deep Features, Adaptive NMS, and Learning-Based Loop Closure
- Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System
- A Novel ViDAR Device With Visual Inertial Encoder Odometry and Reinforcement Learning-Based Active SLAM Method
-
最近のコメント
表示できるコメントはありません。 cs.AI (39747) cs.CL (30084) cs.CV (45067) cs.HC (3038) cs.LG (44680) cs.RO (23778) cs.SY (3623) eess.IV (5162) eess.SY (3615) stat.ML (5812)
「cs.MM」カテゴリーアーカイブ
Quizzard@INOVA Challenge 2025 — Track A: Plug-and-Play Technique in Interleaved Multi-Image Model
要約 このペーパーでは、2つの主要な目的について説明します。 第一に、マルチイメ … 続きを読む
PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications
要約 多様な環境とドメインでの堅牢なナビゲーションには、正確な状態推定と透明な意 … 続きを読む
PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications
要約 多様な環境とドメインでの堅牢なナビゲーションには、正確な状態推定と透明な意 … 続きを読む
A Unit Enhancement and Guidance Framework for Audio-Driven Avatar Video Generation
要約 オーディオ駆動型のヒューマンアニメーションテクノロジーは、ヒューマンコンピ … 続きを読む
VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos
要約 大規模なモデルのマルチステップ推論機能を評価するために作成された最初の長い … 続きを読む
Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment
要約 最近の研究では、マルチモーダルの大手言語モデル(MLLM)が解釈可能な評価 … 続きを読む
VINCIE: Unlocking In-context Image Editing from Video
要約 コンテキスト内画像編集は、テキストと以前に生成された画像を含むコンテキスト … 続きを読む
HopaDIFF: Holistic-Partial Aware Fourier Conditioned Diffusion for Referring Human Action Segmentation in Multi-Person Scenarios
要約 アクションセグメンテーションは、高レベルのビデオ理解における中心的な課題で … 続きを読む
Teaching Physical Awareness to LLMs through Sounds
要約 大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を … 続きを読む