cs.MM」カテゴリーアーカイブ

MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage Learning

要約 以前のビジョン言語事前トレーニング モデルは、主にトークンとオブジェクト … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage Learning はコメントを受け付けていません

Time-of-Day Neural Style Transfer for Architectural Photographs

要約 建築写真は、建物や構造物を前景に、ドラマチックな照明を背景に捉えることに焦 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | Time-of-Day Neural Style Transfer for Architectural Photographs はコメントを受け付けていません

Estimating Visual Information From Audio Through Manifold Learning

要約 オーディオ信号のみを使用してシーンに関する視覚情報を抽出するための新しいフ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Estimating Visual Information From Audio Through Manifold Learning はコメントを受け付けていません

Learning Audio-Visual embedding for Wild Person Verification

要約 これらの 2 つのモダリティからオーディオビジュアル埋め込みを抽出して、人 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Learning Audio-Visual embedding for Wild Person Verification はコメントを受け付けていません

VICTOR: Visual Incompatibility Detection with Transformers and Fashion-specific contrastive pre-training

要約 ファッションの着こなしが美的であるとみなされるためには、それを構成する衣服 … 続きを読む

カテゴリー: cs.CV, cs.MM | VICTOR: Visual Incompatibility Detection with Transformers and Fashion-specific contrastive pre-training はコメントを受け付けていません

Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering

要約 マルチモーダルビデオ質問応答は、正解を予測し、質問に関連する時間的境界を局 … 続きを読む

カテゴリー: cs.CV, cs.MM | Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering はコメントを受け付けていません

Saliency-based Multiple Region of Interest Detection from a Single 360° image

要約 360度画像は、カメラ周辺の全方位的な視覚情報を含んでいるため、情報量が豊 … 続きを読む

カテゴリー: cs.CV, cs.MM | Saliency-based Multiple Region of Interest Detection from a Single 360° image はコメントを受け付けていません

CorrI2P: Deep Image-to-Point Cloud Registration via Dense Correspondence

要約 本論文では、2次元画像を3次元点群に位置決めするための重要なステップは、両 … 続きを読む

カテゴリー: cs.CV, cs.MM | CorrI2P: Deep Image-to-Point Cloud Registration via Dense Correspondence はコメントを受け付けていません

DM$^2$S$^2$: Deep Multi-Modal Sequence Sets with Hierarchical Modality Attention

要約 デジタル広告や電子商取引などの様々なウェブアプリケーションにおいて、マルチ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | DM$^2$S$^2$: Deep Multi-Modal Sequence Sets with Hierarchical Modality Attention はコメントを受け付けていません

Identification of Small Objects in Satellite Image Benchmarks

要約 近年の航空画像へのアクセスと量の増加、計算能力の向上、およびアプリケーショ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Identification of Small Objects in Satellite Image Benchmarks はコメントを受け付けていません