-
最近の投稿
- KISS-Matcher: Fast and Robust Point Cloud Registration Revisited
- Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering
- A Universal Formulation for Path-Parametric Planning and Control
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
-
最近のコメント
表示できるコメントはありません。 cs.AI (27775) cs.CL (20990) cs.CR (2176) cs.CV (34489) cs.LG (32518) cs.RO (15916) cs.SY (2472) eess.IV (4231) eess.SY (2466) stat.ML (4356)
「cs.MM」カテゴリーアーカイブ
Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis
要約 マルチモーダル感情分析 (MSA) は、複数のソース (言語、ビデオ、音声 … 続きを読む
CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor
要約 既存のオープンボキャブラリーの画像セグメンテーション方法では、マスクの注釈 … 続きを読む
Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations
要約 大規模な視覚言語の事前トレーニングは、マルチモーダルな理解と生成タスクにお … 続きを読む
Concept-centric Personalization with Large-scale Diffusion Priors
要約 大規模な拡散モデルは多様なオープンワールド コンテンツを生成する能力が高い … 続きを読む
Accelerated Event-Based Feature Detection and Compression for Surveillance Video Systems
要約 監視ビデオの強力な時間的一貫性により、従来の方法で魅力的な圧縮パフォーマン … 続きを読む
More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory
要約 バニラ フュージョン手法は、依然として主流のオーディオビジュアルタスクの大 … 続きを読む
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception
要約 シンプルでスケーラブルなマルチモーダル マルチタスク トレーニングおよびモ … 続きを読む
SmartMask: Context Aware High-Fidelity Mask Generation for Fine-grained Object Insertion and Layout Control
要約 生成画像修復とオブジェクト挿入の分野は、最近の潜在拡散モデルの出現により大 … 続きを読む
PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
要約 テキストから画像への生成における最近の進歩により、指定されたテキスト プロ … 続きを読む