cs.MM」カテゴリーアーカイブ

LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval

要約 ビデオテキスト検索は、クロスモーダル表現学習問題のクラスであり、目的は、特 … 続きを読む

カテゴリー: cs.CV, cs.MM | LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval はコメントを受け付けていません

SHREC’22 Track: Sketch-Based 3D Shape Retrieval in the Wild

要約 スケッチベースの3D形状検索(SBSR)は重要でありながら挑戦的なタスクで … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | SHREC’22 Track: Sketch-Based 3D Shape Retrieval in the Wild はコメントを受け付けていません

Intra-Modal Constraint Loss For Image-Text Retrieval

要約 クロスモーダル検索は、コンピュータービジョンと自然言語処理の両方の分野で大 … 続きを読む

カテゴリー: cs.CV, cs.MM | Intra-Modal Constraint Loss For Image-Text Retrieval はコメントを受け付けていません

Audio-Visual Segmentation

要約 視聴覚セグメンテーション(AVS)と呼ばれる新しい問題を調査することを提案 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Audio-Visual Segmentation はコメントを受け付けていません

Exploring the Effectiveness of Video Perceptual Representation in Blind Video Quality Assessment

要約 非専門家によって撮影された野生のビデオの急速な成長に伴い、ブラインドビデオ … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Exploring the Effectiveness of Video Perceptual Representation in Blind Video Quality Assessment はコメントを受け付けていません

FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis

要約 制約のない唇から音声への合成は、頭のポーズや語彙に制限がなく、話している顔 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS, I.2.10 | FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis はコメントを受け付けていません

Self-Supervised Learning of Music-Dance Representation through Explicit-Implicit Rhythm Synchronization

要約 視聴覚表現は多くの下流のタスクに適用可能であることが証明されていますが、よ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Self-Supervised Learning of Music-Dance Representation through Explicit-Implicit Rhythm Synchronization はコメントを受け付けていません

FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment Sampling

要約 現在のディープビデオ品質評価 (VQA) 手法は、高解像度ビデオを評価する … 続きを読む

カテゴリー: cs.CV, cs.MM | FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment Sampling はコメントを受け付けていません

Adversarial Robustness of Visual Dialog

要約 敵対的ロバスト性とは、機械学習モデルの安全性と信頼性を確保するために、最悪 … 続きを読む

カテゴリー: cs.CV, cs.MM | Adversarial Robustness of Visual Dialog はコメントを受け付けていません

Multi-modal Robustness Analysis Against Language and Visual Perturbations

要約 大規模データセットにおける視覚と言語の統合モデリングは、単一モード学習と比 … 続きを読む

カテゴリー: cs.CV, cs.MM | Multi-modal Robustness Analysis Against Language and Visual Perturbations はコメントを受け付けていません