-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Proposal-Free Temporal Action Detection via Global Segmentation Mask Learning
要約 既存の時間アクション検出 (TAD) メソッドは、ビデオごとに圧倒的に多数 … 続きを読む
Causal Reasoning Meets Visual Representation Learning: A Prospective Study
要約 視覚表現学習は、視覚理解、ビデオ理解、マルチモーダル分析、ヒューマン コン … 続きを読む
GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement
要約 Grounded Situation Recognition (GSR) … 続きを読む
Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis
要約 ユーザーが作成したオンライン動画の急増に伴い、マルチモーダル感情分析 (M … 続きを読む
Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation
要約 ビデオの音源をローカライズするために、オーディオビジュアル表現学習のための … 続きを読む
A Unified Image Preprocessing Framework For Image Compression
要約 ストリーミング メディア テクノロジーの発展に伴い、音声と視覚情報に依存す … 続きを読む
Learning from Label Relationships in Human Affect
要約 自動化された方法での人間の影響と精神状態の推定は、多くの困難に直面します。 … 続きを読む
Late multimodal fusion for image and audio music transcription
要約 音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む
PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding
要約 PNG(Panoptic Narrative Grounding)は、静止 … 続きを読む
PSUMNet: Unified Modality Part Streams are All You Need for Efficient Pose-based Action Recognition
要約 ポーズに基づくアクション認識は、入力スケルトンをモノリシックに扱うアプロー … 続きを読む