-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Learning from Label Relationships in Human Affect
要約 自動化された方法での人間の影響と精神状態の推定は、時間分解能が低いかまった … 続きを読む
LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval
要約 ビデオテキスト検索は、クロスモーダル表現学習問題のクラスであり、目的は、特 … 続きを読む
SHREC’22 Track: Sketch-Based 3D Shape Retrieval in the Wild
要約 スケッチベースの3D形状検索(SBSR)は重要でありながら挑戦的なタスクで … 続きを読む
Intra-Modal Constraint Loss For Image-Text Retrieval
要約 クロスモーダル検索は、コンピュータービジョンと自然言語処理の両方の分野で大 … 続きを読む
Audio-Visual Segmentation
要約 視聴覚セグメンテーション(AVS)と呼ばれる新しい問題を調査することを提案 … 続きを読む
Exploring the Effectiveness of Video Perceptual Representation in Blind Video Quality Assessment
要約 非専門家によって撮影された野生のビデオの急速な成長に伴い、ブラインドビデオ … 続きを読む
FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis
要約 制約のない唇から音声への合成は、頭のポーズや語彙に制限がなく、話している顔 … 続きを読む
Self-Supervised Learning of Music-Dance Representation through Explicit-Implicit Rhythm Synchronization
要約 視聴覚表現は多くの下流のタスクに適用可能であることが証明されていますが、よ … 続きを読む
FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment Sampling
要約 現在のディープビデオ品質評価 (VQA) 手法は、高解像度ビデオを評価する … 続きを読む
Adversarial Robustness of Visual Dialog
要約 敵対的ロバスト性とは、機械学習モデルの安全性と信頼性を確保するために、最悪 … 続きを読む