-
最近の投稿
- CHARM: Considering Human Attributes for Reinforcement Modeling
- IKDiffuser: Fast and Diverse Inverse Kinematics Solution Generation for Multi-arm Robotic Systems
- SuperPoint-SLAM3: Augmenting ORB-SLAM3 with Deep Features, Adaptive NMS, and Learning-Based Loop Closure
- Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System
- A Novel ViDAR Device With Visual Inertial Encoder Odometry and Reinforcement Learning-Based Active SLAM Method
-
最近のコメント
表示できるコメントはありません。 cs.AI (39747) cs.CL (30084) cs.CV (45067) cs.HC (3038) cs.LG (44680) cs.RO (23778) cs.SY (3623) eess.IV (5162) eess.SY (3615) stat.ML (5812)
「cs.MM」カテゴリーアーカイブ
Contrastive Alignment with Semantic Gap-Aware Corrections in Text-Video Retrieval
要約 テキストビデオ検索の最近の進歩は、主に対照的な学習フレームワークによって推 … 続きを読む
I see what you mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue
要約 対面の相互作用では、音声やジェスチャーを含む複数のモダリティを使用して、情 … 続きを読む
PixelThink: Towards Efficient Chain-of-Pixel Reasoning
要約 既存の推論セグメンテーションアプローチは、通常、画像テキストペアと対応する … 続きを読む
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis
要約 基礎モデルと大規模な言語モデル(LLMS)の急速な進歩は、ミトリモーダル入 … 続きを読む
Multi-MLLM Knowledge Distillation for Out-of-Context News Detection
要約 マルチモーダルのコンテキスト外ニュースは、元のコンテキストの外で画像が使用 … 続きを読む
Spatial Knowledge Graph-Guided Multimodal Synthesis
要約 マルチモーダル大手言語モデル(MLLM)の最近の進歩により、能力が大幅に向 … 続きを読む
VoxAging: Continuously Tracking Speaker Aging with a Large-Scale Longitudinal Dataset in English and Mandarin
要約 スピーカー検証システムのパフォーマンスは、スピーカーの老化によって悪影響を … 続きを読む
LazyVLM: Neuro-Symbolic Approach to Video Analytics
要約 現在のビデオ分析アプローチは、柔軟性と効率性の基本的なトレードオフに直面し … 続きを読む
Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement
要約 音声強化(SE)は、騒々しい環境での音声の品質と明瞭度を改善することを目的 … 続きを読む