-
最近の投稿
- VGC-RIO: A Tightly Integrated Radar-Inertial Odometry with Spatial Weighted Doppler Velocity and Local Geometric Constrained RCS Histograms
- Decentralized Nonlinear Model Predictive Control-Based Flock Navigation with Real-Time Obstacle Avoidance in Unknown Obstructed Environments
- SafePath: Conformal Prediction for Safe LLM-Based Autonomous Navigation
- Behind Maya: Building a Multilingual Vision Language Model
- Establishing Linear Surrogate Regret Bounds for Convex Smooth Losses via Convolutional Fenchel-Young Losses
-
最近のコメント
表示できるコメントはありません。 cs.AI (38112) cs.CL (28800) cs.CV (43687) cs.HC (2911) cs.LG (43035) cs.RO (22675) cs.SY (3481) eess.IV (5065) eess.SY (3473) stat.ML (5605)
「cs.MM」カテゴリーアーカイブ
Find the Cliffhanger: Multi-Modal Trailerness in Soap Operas
要約 トレーラーを作成するには、長いビデオから短い魅力的な瞬間を慎重に選択してつ … 続きを読む
Cross-Modal Coordination Across a Diverse Set of Input Modalities
要約 クロスモーダル検索は、別のクエリを使用して特定のモダリティのサンプルを取得 … 続きを読む
Synchformer: Efficient Synchronization from Sparse Cues
要約 私たちの目的は、同期キューがまばらな可能性がある YouTube などの「 … 続きを読む
Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning
要約 近年、Web ビデオの爆発的な増加により、ビデオのフィルタリング、推奨、検 … 続きを読む
CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning
要約 マルチモーダル大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力 … 続きを読む
CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning
要約 マルチモーダル大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力 … 続きを読む
MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, ASR Error Detection, and ASR Error Correction
要約 音声感情認識 (SER) における一般的なアプローチには、音声情報とテキス … 続きを読む
Modularized Zero-shot VQA with Pre-trained Models
要約 大規模な事前トレーニング済みモデル (PTM) は、優れたゼロショット機能 … 続きを読む
M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images
要約 空間トランスクリプトミクス (ST) の進歩により、組織病理学画像に基づい … 続きを読む