-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
「cs.MM」カテゴリーアーカイブ
Revisiting Pre-training in Audio-Visual Learning
要約 事前学習は、様々なタスクでモデルの性能を向上させるために大きな成功を収めて … 続きを読む
Baseline Method for the Sport Task of MediaEval 2022 with 3D CNNs using Attention Mechanisms
要約 本論文では,MediaEval 2022ベンチマークのスポーツビデオタスク … 続きを読む
Fine-Grained Action Detection with RGB and Pose Information using Two Stream Convolutional Networks
要約 MediaEval 2022 Sport Taskの参加者として、我々は卓 … 続きを読む
M3FAS: An Accurate and Robust MultiModal Mobile Face Anti-Spoofing System
要約 顔認証技術(Face Presentation Attack: FPA)は … 続きを読む
Leveraging Modality-specific Representations for Audio-visual Speech Recognition via Reinforcement Learning
要約 視聴覚音声認識 (AVSR) は、音声認識のノイズ ロバスト性を改善するた … 続きを読む
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video
要約 近年、言語、ビジョン、およびマルチモーダル事前トレーニングの大きな収束が見 … 続きを読む
Sport Task: Fine Grained Action Detection and Classification of Table Tennis Strokes from Videos for MediaEval 2022
要約 スポーツ ビデオの分析は、広く行われている研究テーマです。 そのアプリケー … 続きを読む
Zero3D: Semantic-Driven Multi-Category 3D Shape Generation
要約 セマンティック主導の 3D 形状生成は、テキストに基づいて調整された 3D … 続きを読む
M3FAS: An Accurate and Robust MultiModal Mobile Face Anti-Spoofing System
要約 フェイス スプーフィングとしても知られるフェイス プレゼンテーション攻撃 … 続きを読む
Inter-View Depth Consistency Testing in Depth Difference Subspace
要約 マルチビュー深度画像は、自由視点テレビで重要な役割を果たします。 この技術 … 続きを読む