cs.MM」カテゴリーアーカイブ

Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners

要約 この作業では、オープン語彙ビデオ分類、テキストからビデオへの検索、ビデオ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners はコメントを受け付けていません

Memories are One-to-Many Mapping Alleviators in Talking Face Generation

要約 話す顔の生成は、入力オーディオによって駆動される対象人物の写真のようにリア … 続きを読む

カテゴリー: cs.CV, cs.MM | Memories are One-to-Many Mapping Alleviators in Talking Face Generation はコメントを受け付けていません

iQuery: Instruments as Queries for Audio-Visual Sound Separation

要約 現在のオーディオとビジュアルの分離方法は、オーディオ エンコーダー/デコー … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | iQuery: Instruments as Queries for Audio-Visual Sound Separation はコメントを受け付けていません

iQuery: Instruments as Queries for Audio-Visual Sound Separation

要約 現在のオーディオとビジュアルの分離方法は、オーディオ エンコーダー/デコー … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | iQuery: Instruments as Queries for Audio-Visual Sound Separation はコメントを受け付けていません

Semantic-Conditional Diffusion Networks for Image Captioning

要約 テキストから画像への生成に関する最近の進歩により、強力な生成モデルとして機 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Semantic-Conditional Diffusion Networks for Image Captioning はコメントを受け付けていません

Role of Audio in Audio-Visual Video Summarization

要約 映像の要約は、映像の表現、検索、閲覧を効率的に行い、映像の量やトラフィック … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Role of Audio in Audio-Visual Video Summarization はコメントを受け付けていません

Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations

要約 Visual Entailment with natural langua … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations はコメントを受け付けていません

Audio-Visual Activity Guided Cross-Modal Identity Association for Active Speaker Detection

要約 ビデオでのアクティブ スピーカーの検出は、ビデオ フレームに表示されるソー … 続きを読む

カテゴリー: cs.CV, cs.MM | Audio-Visual Activity Guided Cross-Modal Identity Association for Active Speaker Detection はコメントを受け付けていません

Action-GPT: Leveraging Large-scale Language Models for Improved and Generalized Zero Shot Action Generation

要約 大規模言語モデル (LLM) をテキストベースのアクション生成モデルに組み … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | Action-GPT: Leveraging Large-scale Language Models for Improved and Generalized Zero Shot Action Generation はコメントを受け付けていません

Intra-class Adaptive Augmentation with Neighbor Correction for Deep Metric Learning

要約 ディープ メトリック ラーニングは、意味的に類似したサンプルが近くにあり、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.MM | Intra-class Adaptive Augmentation with Neighbor Correction for Deep Metric Learning はコメントを受け付けていません