「cs.MM」カテゴリーアーカイブ

ViGAT: Bottom-up event recognition and explanation in video using factorized graph attention network

投稿日: 2022年7月21日作成者: jarxiv

要約このホワイトペーパーでは、ViGATと呼ばれる純粋な注意のボトムアップアプ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Rethinking Data Augmentation for Robust Visual Question Answering

投稿日: 2022年7月19日作成者: jarxiv

要約データ拡張（DA）（元のトレーニングセットを超える追加のトレーニングサンプ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

EKTVQA: Generalized use of External Knowledge to empower Scene Text in Text-VQA

投稿日: 2022年7月18日作成者: jarxiv

要約 Text-VQAの自由形式の質問応答タスクでは、画像のめったに見られない、 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Semi-Supervised Temporal Action Detection with Proposal-Free Masking

投稿日: 2022年7月15日作成者: jarxiv

要約既存の時間的行動検出（TAD）メソッドは、セグメントレベルの注釈付きの多数 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Explaining Image Enhancement Black-Box Methods through a Path Planning Based Algorithm

投稿日: 2022年7月15日作成者: jarxiv

要約今日、画像から画像への翻訳方法は、自然な画像を強調するための最先端技術です … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Dress Code: High-Resolution Multi-Category Virtual Try-On

投稿日: 2022年7月14日作成者: jarxiv

要約画像ベースの仮想試着は、衣料品の外観を対象者の画像に転写することを目的とし … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | コメントを受け付けていません

RTN: Reinforced Transformer Network for Coronary CT Angiography Vessel-level Image Quality Assessment

投稿日: 2022年7月14日作成者: jarxiv

要約冠状動脈CT血管造影（CCTA）は、心血管疾患の正確な診断を著しく損なうさ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Intra-Modal Constraint Loss For Image-Text Retrieval

投稿日: 2022年7月14日作成者: jarxiv

要約クロスモーダル検索は、コンピュータービジョンと自然言語処理の両方の分野で大 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Modality-Aware Contrastive Instance Learning with Self-Distillation for Weakly-Supervised Audio-Visual Violence Detection

投稿日: 2022年7月13日作成者: jarxiv

要約弱く監視された視聴覚暴力の検出は、ビデオレベルのラベルを持つマルチモーダル … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Long-term Leap Attention, Short-term Periodic Shift for Video Classification

投稿日: 2022年7月13日作成者: jarxiv

要約ビデオトランスフォーマーは、静的ビジョントランスフォーマーよりも計算負荷が … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

ViGAT: Bottom-up event recognition and explanation in video using factorized graph attention network

Rethinking Data Augmentation for Robust Visual Question Answering

EKTVQA: Generalized use of External Knowledge to empower Scene Text in Text-VQA

Semi-Supervised Temporal Action Detection with Proposal-Free Masking

Explaining Image Enhancement Black-Box Methods through a Path Planning Based Algorithm

Dress Code: High-Resolution Multi-Category Virtual Try-On

RTN: Reinforced Transformer Network for Coronary CT Angiography Vessel-level Image Quality Assessment

Intra-Modal Constraint Loss For Image-Text Retrieval

Modality-Aware Contrastive Instance Learning with Self-Distillation for Weakly-Supervised Audio-Visual Violence Detection

Long-term Leap Attention, Short-term Periodic Shift for Video Classification

最近の投稿

最近のコメント

アーカイブ

カテゴリー