-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.IR」カテゴリーアーカイブ
Late multimodal fusion for image and audio music transcription
要約 音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む
DnS: Distill-and-Select for Efficient and Accurate Video Indexing and Retrieval
要約 本論文では、大規模データセットにおける高性能かつ計算効率の高いコンテンツベ … 続きを読む
Fashion Recommendation Based on Style and Social Events
要約 ファッションのレコメンデーションは、検索された衣服から補完的なアイテムを見 … 続きを読む
Multimodal Entity Tagging with Multimodal Knowledge Base
要約 マルチモーダル知識ベースとマルチモーダル情報処理に関する研究を強化するため … 続きを読む
Deep Hash Distillation for Image Retrieval
要約 ハッシュベースの画像検索システムでは、劣化または変換された入力は通常、元の … 続きを読む
Docent: A content-based recommendation system to discover contemporary art
要約 レコメンデーションシステムは、音楽、映画、eショッピングなど、さまざまな分 … 続きを読む
(Un)likelihood Training for Interpretable Embedding
要約 クロスモーダル表現学習は、テキストデータと視覚データの間の意味的ギャップを … 続きを読む
ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries Challenge 2022
要約 本報告では、CVPR 2022のEgo4D Natural Languag … 続きを読む
VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices
要約 この論文では、人間の顔と声を含むビデオの唇と声の同期の問題に対処します。 … 続きを読む
Exploiting Semantic Role Contextualized Video Features for Multi-Instance Text-Video Retrieval EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022
要約 このレポートでは、EPIC-KITCHENS-100マルチインスタンス検索 … 続きを読む