「cs.IR」カテゴリーアーカイブ

Late multimodal fusion for image and audio music transcription

投稿日: 2022年8月15日作成者: jarxiv

要約音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.MM, cs.SD, eess.AS, I.4 | コメントを受け付けていません

DnS: Distill-and-Select for Efficient and Accurate Video Indexing and Retrieval

投稿日: 2022年8月8日作成者: jarxiv

要約本論文では、大規模データセットにおける高性能かつ計算効率の高いコンテンツベ … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.MM | コメントを受け付けていません

Fashion Recommendation Based on Style and Social Events

投稿日: 2022年8月2日作成者: jarxiv

要約ファッションのレコメンデーションは、検索された衣服から補完的なアイテムを見 … 続きを読む →

カテゴリー: cs.CV, cs.IR | コメントを受け付けていません

Multimodal Entity Tagging with Multimodal Knowledge Base

投稿日: 2022年7月29日作成者: jarxiv

要約マルチモーダル知識ベースとマルチモーダル情報処理に関する研究を強化するため … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | コメントを受け付けていません

Deep Hash Distillation for Image Retrieval

投稿日: 2022年7月14日作成者: jarxiv

要約ハッシュベースの画像検索システムでは、劣化または変換された入力は通常、元の … 続きを読む →

カテゴリー: cs.CV, cs.IR | コメントを受け付けていません

Docent: A content-based recommendation system to discover contemporary art

投稿日: 2022年7月13日作成者: jarxiv

要約レコメンデーションシステムは、音楽、映画、eショッピングなど、さまざまな分 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG | コメントを受け付けていません

(Un)likelihood Training for Interpretable Embedding

投稿日: 2022年7月4日作成者: jarxiv

要約クロスモーダル表現学習は、テキストデータと視覚データの間の意味的ギャップを … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.MM | コメントを受け付けていません

ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries Challenge 2022

投稿日: 2022年7月4日作成者: jarxiv

要約本報告では、CVPR 2022のEgo4D Natural Languag … 続きを読む →

カテゴリー: cs.CV, cs.IR | コメントを受け付けていません

VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices

投稿日: 2022年7月1日作成者: jarxiv

要約この論文では、人間の顔と声を含むビデオの唇と声の同期の問題に対処します。 … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.SD, eess.AS | コメントを受け付けていません

Exploiting Semantic Role Contextualized Video Features for Multi-Instance Text-Video Retrieval EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022

投稿日: 2022年6月30日作成者: jarxiv

要約このレポートでは、EPIC-KITCHENS-100マルチインスタンス検索 … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.LG | コメントを受け付けていません

「cs.IR」カテゴリーアーカイブ

Late multimodal fusion for image and audio music transcription

DnS: Distill-and-Select for Efficient and Accurate Video Indexing and Retrieval

Fashion Recommendation Based on Style and Social Events

Multimodal Entity Tagging with Multimodal Knowledge Base

Deep Hash Distillation for Image Retrieval

Docent: A content-based recommendation system to discover contemporary art

(Un)likelihood Training for Interpretable Embedding

ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries Challenge 2022

VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices

Exploiting Semantic Role Contextualized Video Features for Multi-Instance Text-Video Retrieval EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022

最近の投稿

最近のコメント

アーカイブ

カテゴリー