cs.MM」カテゴリーアーカイブ

Video Question Answering Using CLIP-Guided Visual-Text Attention

要約 Video Question Answering (VideoQA)では、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, I.2.10 | Video Question Answering Using CLIP-Guided Visual-Text Attention はコメントを受け付けていません

Neighborhood Contrastive Transformer for Change Captioning

要約 チェンジキャプションとは、類似した画像のペア間の意味的な変化を自然言語で記 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Neighborhood Contrastive Transformer for Change Captioning はコメントを受け付けていません

AutoMatch: A Large-scale Audio Beat Matching Benchmark for Boosting Deep Learning Assistant Video Editing

要約 短編映像の爆発的な普及は、人々の交流のあり方を大きく変え、日々の共有や最新 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | AutoMatch: A Large-scale Audio Beat Matching Benchmark for Boosting Deep Learning Assistant Video Editing はコメントを受け付けていません

Synthetic Misinformers: Generating and Combating Multimodal Misinformation

要約 ソーシャル メディアの拡大とマルチメディア コンテンツの普及に伴い、誤った … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM | Synthetic Misinformers: Generating and Combating Multimodal Misinformation はコメントを受け付けていません

MLANet: Multi-Level Attention Network with Sub-instruction for Continuous Vision-and-Language Navigation

要約 Vision-and-Language Navigation (VLN) … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | MLANet: Multi-Level Attention Network with Sub-instruction for Continuous Vision-and-Language Navigation はコメントを受け付けていません

Multimodal Analogical Reasoning over Knowledge Graphs

要約 類推は人間の認知の基本であり、さまざまな分野で重要な位置を占めています。 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Multimodal Analogical Reasoning over Knowledge Graphs はコメントを受け付けていません

The style transformer with common knowledge optimization for image-text retrieval

要約 さまざまなモダリティを関連付ける画像テキスト検索は、その優れた研究価値と幅 … 続きを読む

カテゴリー: cs.CV, cs.MM | The style transformer with common knowledge optimization for image-text retrieval はコメントを受け付けていません

Global Context-Aware Person Image Generation

要約 コンテキストを意識した人物画像生成のためのデータ駆動型アプローチを提案しま … 続きを読む

カテゴリー: cs.CV, cs.MM | Global Context-Aware Person Image Generation はコメントを受け付けていません

Contrastive Video Question Answering via Video Graph Transformer

要約 ビデオ グラフ トランスフォーマー モデル (CoVGT) を介して対照的 … 続きを読む

カテゴリー: cs.CV, cs.MM | Contrastive Video Question Answering via Video Graph Transformer はコメントを受け付けていません

Blind Omnidirectional Image Quality Assessment: Integrating Local Statistics and Global Semantics

要約 全方向画像品質評価 (OIQA) は、視覚環境の 180$\times$3 … 続きを読む

カテゴリー: cs.CV, cs.MM | Blind Omnidirectional Image Quality Assessment: Integrating Local Statistics and Global Semantics はコメントを受け付けていません