-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Towards Garment Sewing Pattern Reconstruction from a Single Image
要約 衣服の縫製パターンは衣服の本質的な残りの形状を表し、ファッション デザイン … 続きを読む
Out-of-distribution Detection Learning with Unreliable Out-of-distribution Sources
要約 分布外 (OOD) 検出は、予測子が有効な予測を行うことができない OOD … 続きを読む
Leveraging Automatic Personalised Nutrition: Food Image Recognition Benchmark and Dataset based on Nutrition Taxonomy
要約 不適切な食生活が特徴的な今日の座りっぱなしの社会では、健康的なライフスタイ … 続きを読む
GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation
要約 拡散プロセスに基づくテキストから画像への (T2I) モデルは、ユーザーが … 続きを読む
LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing
要約 LLaVA-Interactive は、マルチモーダルな人間と AI のイ … 続きを読む
A Transformer-Based Model With Self-Distillation for Multimodal Emotion Recognition in Conversations
要約 会話における感情認識 (ERC) は、会話中の各発話の感情を認識するタスク … 続きを読む
Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey
要約 一般化されたディープ モデルに対する緊急の需要に伴い、BERT、ViT、G … 続きを読む
AMPose: Alternately Mixed Global-Local Attention Model for 3D Human Pose Estimation
要約 グラフ畳み込みネットワーク (GCN) は、3D 人間姿勢推定 (HPE) … 続きを読む
LAVSS: Location-Guided Audio-Visual Spatial Audio Separation
要約 既存の機械学習研究は、モノラル視聴覚分離 (MAVS) において有望な結果 … 続きを読む