「cs.MM」カテゴリーアーカイブ

VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment

投稿日: 2023年2月16日作成者: jarxiv

要約ビジョン言語事前トレーニング (VLP) は、最近、さまざまなユニモーダル … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Towards Robust Neural Image Compression: Adversarial Attack and Model Finetuning

投稿日: 2023年2月15日作成者: jarxiv

要約ディープニューラルネットワークに基づく画像圧縮は、広く研究されています … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

DiffFaceSketch: High-Fidelity Face Image Synthesis with Sketch-Guided Latent Diffusion Model

投稿日: 2023年2月15日作成者: jarxiv

要約モノクロスケッチから顔画像を合成することは、画像から画像への変換の分野で … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Zero3D: Semantic-Driven Multi-Category 3D Shape Generation

投稿日: 2023年2月14日作成者: jarxiv

要約セマンティック主導の 3D 形状生成は、テキストに基づいて調整された 3D … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval

投稿日: 2023年2月14日作成者: jarxiv

要約ビデオテキスト検索は、クロスモーダル表現学習問題のクラスであり、その目標は … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Video compression dataset and benchmark of learning-based video-quality metrics

投稿日: 2023年2月8日作成者: jarxiv

要約映像品質測定は、映像処理における重要なタスクである。現在、AV1、VVC、 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Revisiting Pre-training in Audio-Visual Learning

投稿日: 2023年2月8日作成者: jarxiv

要約事前学習は、様々なタスクでモデルの性能を向上させるために大きな成功を収めて … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Baseline Method for the Sport Task of MediaEval 2022 with 3D CNNs using Attention Mechanisms

投稿日: 2023年2月7日作成者: jarxiv

要約本論文では，MediaEval 2022ベンチマークのスポーツビデオタスク … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Fine-Grained Action Detection with RGB and Pose Information using Two Stream Convolutional Networks

投稿日: 2023年2月7日作成者: jarxiv

要約 MediaEval 2022 Sport Taskの参加者として、我々は卓 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

M3FAS: An Accurate and Robust MultiModal Mobile Face Anti-Spoofing System

投稿日: 2023年2月6日作成者: jarxiv

要約顔認証技術（Face Presentation Attack: FPA）は … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment

Towards Robust Neural Image Compression: Adversarial Attack and Model Finetuning

DiffFaceSketch: High-Fidelity Face Image Synthesis with Sketch-Guided Latent Diffusion Model

Zero3D: Semantic-Driven Multi-Category 3D Shape Generation

LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval

Video compression dataset and benchmark of learning-based video-quality metrics

Revisiting Pre-training in Audio-Visual Learning

Baseline Method for the Sport Task of MediaEval 2022 with 3D CNNs using Attention Mechanisms

Fine-Grained Action Detection with RGB and Pose Information using Two Stream Convolutional Networks

M3FAS: An Accurate and Robust MultiModal Mobile Face Anti-Spoofing System

最近の投稿

最近のコメント

アーカイブ

カテゴリー