-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception
要約 ストリーミング認識は、自動運転システムの遅延と精度を首尾一貫して考慮する自 … 続きを読む
TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early Intent Prediction
要約 人間の意図の予測は、ビデオ内のアクティビティを視覚ベースのシステムで予測す … 続きを読む
Learning Audio-Visual embedding for Person Verification in the Wild
要約 オーディオビジュアルの埋め込みは、個人の検証において単一モダリティの埋め込 … 続きを読む
AMPose: Alternatively Mixed Global-Local Attention Model for 3D Human Pose Estimation
要約 グラフ畳み込みネットワーク (GCN) は、3D 人間の姿勢推定 (HPE … 続きを読む
End-to-end Transformer for Compressed Video Quality Enhancement
要約 畳み込みニューラル ネットワークは、近年、圧縮ビデオの品質向上タスクで優れ … 続きを読む
Image-Text Retrieval with Binary and Continuous Label Supervision
要約 ほとんどの画像とテキストの検索作業では、画像とテキストのペアが一致するかど … 続きを読む
Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors
要約 このホワイト ペーパーの目的は、「実際の」一般的なビデオの視聴覚同期です。 … 続きを読む
A Generalist Framework for Panoptic Segmentation of Images and Videos
要約 パノプティック セグメンテーションは、画像のすべてのピクセルにセマンティッ … 続きを読む
Evaluating Point Cloud Quality via Transformational Complexity
要約 完全参照点群品質評価 (FR-PCQA) は、利用可能な参照を使用して歪ん … 続きを読む
C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval
要約 多言語のテキストとビデオの検索方法は近年大幅に改善されていますが、他の言語 … 続きを読む