-
最近の投稿
- KISS-Matcher: Fast and Robust Point Cloud Registration Revisited
- Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering
- A Universal Formulation for Path-Parametric Planning and Control
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
-
最近のコメント
表示できるコメントはありません。 cs.AI (27775) cs.CL (20990) cs.CR (2176) cs.CV (34489) cs.LG (32518) cs.RO (15916) cs.SY (2472) eess.IV (4231) eess.SY (2466) stat.ML (4356)
「cs.MM」カテゴリーアーカイブ
Hard to Track Objects with Irregular Motions and Similar Appearances? Make It Easier by Buffering the Matching Space
要約 不規則な動きと区別できない外観を持つ複数のオブジェクトを追跡するための C … 続きを読む
Can CLIP Help Sound Source Localization?
要約 大規模な事前トレーニング済み画像テキスト モデルは、その堅牢な表現機能と効 … 続きを読む
Towards Garment Sewing Pattern Reconstruction from a Single Image
要約 衣服の縫製パターンは衣服の本質的な残りの形状を表し、ファッション デザイン … 続きを読む
Out-of-distribution Detection Learning with Unreliable Out-of-distribution Sources
要約 分布外 (OOD) 検出は、予測子が有効な予測を行うことができない OOD … 続きを読む
Leveraging Automatic Personalised Nutrition: Food Image Recognition Benchmark and Dataset based on Nutrition Taxonomy
要約 不適切な食生活が特徴的な今日の座りっぱなしの社会では、健康的なライフスタイ … 続きを読む
GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation
要約 拡散プロセスに基づくテキストから画像への (T2I) モデルは、ユーザーが … 続きを読む
LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing
要約 LLaVA-Interactive は、マルチモーダルな人間と AI のイ … 続きを読む
A Transformer-Based Model With Self-Distillation for Multimodal Emotion Recognition in Conversations
要約 会話における感情認識 (ERC) は、会話中の各発話の感情を認識するタスク … 続きを読む
Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey
要約 一般化されたディープ モデルに対する緊急の需要に伴い、BERT、ViT、G … 続きを読む
AMPose: Alternately Mixed Global-Local Attention Model for 3D Human Pose Estimation
要約 グラフ畳み込みネットワーク (GCN) は、3D 人間姿勢推定 (HPE) … 続きを読む