「cs.MM」カテゴリーアーカイブ

Video Question Answering Using CLIP-Guided Visual-Text Attention

投稿日: 2023年3月7日作成者: jarxiv

要約 Video Question Answering (VideoQA)では、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, I.2.10 | コメントを受け付けていません

Neighborhood Contrastive Transformer for Change Captioning

投稿日: 2023年3月7日作成者: jarxiv

要約チェンジキャプションとは、類似した画像のペア間の意味的な変化を自然言語で記 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

AutoMatch: A Large-scale Audio Beat Matching Benchmark for Boosting Deep Learning Assistant Video Editing

投稿日: 2023年3月6日作成者: jarxiv

要約短編映像の爆発的な普及は、人々の交流のあり方を大きく変え、日々の共有や最新 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Synthetic Misinformers: Generating and Combating Multimodal Misinformation

投稿日: 2023年3月3日作成者: jarxiv

要約ソーシャルメディアの拡大とマルチメディアコンテンツの普及に伴い、誤った … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM | コメントを受け付けていません

MLANet: Multi-Level Attention Network with Sub-instruction for Continuous Vision-and-Language Navigation

投稿日: 2023年3月3日作成者: jarxiv

要約 Vision-and-Language Navigation (VLN) … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Multimodal Analogical Reasoning over Knowledge Graphs

投稿日: 2023年3月2日作成者: jarxiv

要約類推は人間の認知の基本であり、さまざまな分野で重要な位置を占めています。 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

The style transformer with common knowledge optimization for image-text retrieval

投稿日: 2023年3月2日作成者: jarxiv

要約さまざまなモダリティを関連付ける画像テキスト検索は、その優れた研究価値と幅 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Global Context-Aware Person Image Generation

投稿日: 2023年3月1日作成者: jarxiv

要約コンテキストを意識した人物画像生成のためのデータ駆動型アプローチを提案しま … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Contrastive Video Question Answering via Video Graph Transformer

投稿日: 2023年2月28日作成者: jarxiv

要約ビデオグラフトランスフォーマーモデル (CoVGT) を介して対照的 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Blind Omnidirectional Image Quality Assessment: Integrating Local Statistics and Global Semantics

投稿日: 2023年2月27日作成者: jarxiv

要約全方向画像品質評価 (OIQA) は、視覚環境の 180$\times$3 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Video Question Answering Using CLIP-Guided Visual-Text Attention

Neighborhood Contrastive Transformer for Change Captioning

AutoMatch: A Large-scale Audio Beat Matching Benchmark for Boosting Deep Learning Assistant Video Editing

Synthetic Misinformers: Generating and Combating Multimodal Misinformation

MLANet: Multi-Level Attention Network with Sub-instruction for Continuous Vision-and-Language Navigation

Multimodal Analogical Reasoning over Knowledge Graphs

The style transformer with common knowledge optimization for image-text retrieval

Global Context-Aware Person Image Generation

Contrastive Video Question Answering via Video Graph Transformer

Blind Omnidirectional Image Quality Assessment: Integrating Local Statistics and Global Semantics

最近の投稿

最近のコメント

アーカイブ

カテゴリー