cs.MM」カテゴリーアーカイブ

VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment

要約 ビジョン言語事前トレーニング (VLP) は、最近、さまざまなユニモーダル … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment はコメントを受け付けていません

Towards Robust Neural Image Compression: Adversarial Attack and Model Finetuning

要約 ディープ ニューラル ネットワークに基づく画像圧縮は、広く研究されています … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Towards Robust Neural Image Compression: Adversarial Attack and Model Finetuning はコメントを受け付けていません

DiffFaceSketch: High-Fidelity Face Image Synthesis with Sketch-Guided Latent Diffusion Model

要約 モノクロ スケッチから顔画像を合成することは、画像から画像への変換の分野で … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | DiffFaceSketch: High-Fidelity Face Image Synthesis with Sketch-Guided Latent Diffusion Model はコメントを受け付けていません

Zero3D: Semantic-Driven Multi-Category 3D Shape Generation

要約 セマンティック主導の 3D 形状生成は、テキストに基づいて調整された 3D … 続きを読む

カテゴリー: cs.CV, cs.MM | Zero3D: Semantic-Driven Multi-Category 3D Shape Generation はコメントを受け付けていません

LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval

要約 ビデオテキスト検索は、クロスモーダル表現学習問題のクラスであり、その目標は … 続きを読む

カテゴリー: cs.CV, cs.MM | LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval はコメントを受け付けていません

Video compression dataset and benchmark of learning-based video-quality metrics

要約 映像品質測定は、映像処理における重要なタスクである。現在、AV1、VVC、 … 続きを読む

カテゴリー: cs.CV, cs.MM | Video compression dataset and benchmark of learning-based video-quality metrics はコメントを受け付けていません

Revisiting Pre-training in Audio-Visual Learning

要約 事前学習は、様々なタスクでモデルの性能を向上させるために大きな成功を収めて … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Revisiting Pre-training in Audio-Visual Learning はコメントを受け付けていません

Baseline Method for the Sport Task of MediaEval 2022 with 3D CNNs using Attention Mechanisms

要約 本論文では,MediaEval 2022ベンチマークのスポーツビデオタスク … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Baseline Method for the Sport Task of MediaEval 2022 with 3D CNNs using Attention Mechanisms はコメントを受け付けていません

Fine-Grained Action Detection with RGB and Pose Information using Two Stream Convolutional Networks

要約 MediaEval 2022 Sport Taskの参加者として、我々は卓 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Fine-Grained Action Detection with RGB and Pose Information using Two Stream Convolutional Networks はコメントを受け付けていません

M3FAS: An Accurate and Robust MultiModal Mobile Face Anti-Spoofing System

要約 顔認証技術(Face Presentation Attack: FPA)は … 続きを読む

カテゴリー: cs.CV, cs.MM | M3FAS: An Accurate and Robust MultiModal Mobile Face Anti-Spoofing System はコメントを受け付けていません