-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment
要約 ビジョン言語事前トレーニング (VLP) は、最近、さまざまなユニモーダル … 続きを読む
Towards Robust Neural Image Compression: Adversarial Attack and Model Finetuning
要約 ディープ ニューラル ネットワークに基づく画像圧縮は、広く研究されています … 続きを読む
DiffFaceSketch: High-Fidelity Face Image Synthesis with Sketch-Guided Latent Diffusion Model
要約 モノクロ スケッチから顔画像を合成することは、画像から画像への変換の分野で … 続きを読む
Zero3D: Semantic-Driven Multi-Category 3D Shape Generation
要約 セマンティック主導の 3D 形状生成は、テキストに基づいて調整された 3D … 続きを読む
LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval
要約 ビデオテキスト検索は、クロスモーダル表現学習問題のクラスであり、その目標は … 続きを読む
Video compression dataset and benchmark of learning-based video-quality metrics
要約 映像品質測定は、映像処理における重要なタスクである。現在、AV1、VVC、 … 続きを読む
Revisiting Pre-training in Audio-Visual Learning
要約 事前学習は、様々なタスクでモデルの性能を向上させるために大きな成功を収めて … 続きを読む
Baseline Method for the Sport Task of MediaEval 2022 with 3D CNNs using Attention Mechanisms
要約 本論文では,MediaEval 2022ベンチマークのスポーツビデオタスク … 続きを読む
Fine-Grained Action Detection with RGB and Pose Information using Two Stream Convolutional Networks
要約 MediaEval 2022 Sport Taskの参加者として、我々は卓 … 続きを読む
M3FAS: An Accurate and Robust MultiModal Mobile Face Anti-Spoofing System
要約 顔認証技術(Face Presentation Attack: FPA)は … 続きを読む