「cs.MM」カテゴリーアーカイブ

Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners

投稿日: 2022年12月12日作成者: jarxiv

要約この作業では、オープン語彙ビデオ分類、テキストからビデオへの検索、ビデオ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Memories are One-to-Many Mapping Alleviators in Talking Face Generation

投稿日: 2022年12月12日作成者: jarxiv

要約話す顔の生成は、入力オーディオによって駆動される対象人物の写真のようにリア … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

iQuery: Instruments as Queries for Audio-Visual Sound Separation

投稿日: 2022年12月9日作成者: jarxiv

要約現在のオーディオとビジュアルの分離方法は、オーディオエンコーダー/デコー … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

iQuery: Instruments as Queries for Audio-Visual Sound Separation

投稿日: 2022年12月8日作成者: jarxiv

要約現在のオーディオとビジュアルの分離方法は、オーディオエンコーダー/デコー … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Semantic-Conditional Diffusion Networks for Image Captioning

投稿日: 2022年12月7日作成者: jarxiv

要約テキストから画像への生成に関する最近の進歩により、強力な生成モデルとして機 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Role of Audio in Audio-Visual Video Summarization

投稿日: 2022年12月5日作成者: jarxiv

要約映像の要約は、映像の表現、検索、閲覧を効率的に行い、映像の量やトラフィック … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations

投稿日: 2022年12月5日作成者: jarxiv

要約 Visual Entailment with natural langua … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Audio-Visual Activity Guided Cross-Modal Identity Association for Active Speaker Detection

投稿日: 2022年12月2日作成者: jarxiv

要約ビデオでのアクティブスピーカーの検出は、ビデオフレームに表示されるソー … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Action-GPT: Leveraging Large-scale Language Models for Improved and Generalized Zero Shot Action Generation

投稿日: 2022年12月1日作成者: jarxiv

要約大規模言語モデル (LLM) をテキストベースのアクション生成モデルに組み … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.MM | コメントを受け付けていません

Intra-class Adaptive Augmentation with Neighbor Correction for Deep Metric Learning

投稿日: 2022年11月30日作成者: jarxiv

要約ディープメトリックラーニングは、意味的に類似したサンプルが近くにあり、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IR, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners

Memories are One-to-Many Mapping Alleviators in Talking Face Generation

iQuery: Instruments as Queries for Audio-Visual Sound Separation

iQuery: Instruments as Queries for Audio-Visual Sound Separation

Semantic-Conditional Diffusion Networks for Image Captioning

Role of Audio in Audio-Visual Video Summarization

Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations

Audio-Visual Activity Guided Cross-Modal Identity Association for Active Speaker Detection

Action-GPT: Leveraging Large-scale Language Models for Improved and Generalized Zero Shot Action Generation

Intra-class Adaptive Augmentation with Neighbor Correction for Deep Metric Learning

最近の投稿

最近のコメント

アーカイブ

カテゴリー