「cs.MM」カテゴリーアーカイブ

CorrI2P: Deep Image-to-Point Cloud Registration via Dense Correspondence

投稿日: 2022年9月21日作成者: jarxiv

要約対応する 3D 点群で 2D 画像をローカライズする重要なステップは、それ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Learning to Evaluate Performance of Multi-modal Semantic Localization

投稿日: 2022年9月20日作成者: jarxiv

要約セマンティックローカリゼーション (SeLo) は、テキストなどのセマン … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

AutoLV: Automatic Lecture Video Generator

投稿日: 2022年9月20日作成者: jarxiv

要約注釈付きスライド、講師の参照音声、講師の参照ポートレートビデオから直接、 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Rethinking Data Augmentation for Robust Visual Question Answering

投稿日: 2022年9月16日作成者: jarxiv

要約元のトレーニングセットを超える追加のトレーニングサンプルを生成する D … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Learning to Evaluate Performance of Multi-modal Semantic Localization

投稿日: 2022年9月16日作成者: jarxiv

要約セマンティックローカリゼーション (SeLo) は、テキストなどのセマン … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Learning to Evaluate Performance of Multi-modal Semantic Localization

投稿日: 2022年9月15日作成者: jarxiv

要約セマンティックローカリゼーション (SeLo) は、テキストなどのセマン … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage Learning

投稿日: 2022年9月15日作成者: jarxiv

要約以前のビジョン言語事前トレーニングモデルは、主にトークンとオブジェクト … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Time-of-Day Neural Style Transfer for Architectural Photographs

投稿日: 2022年9月14日作成者: jarxiv

要約建築写真は、建物や構造物を前景に、ドラマチックな照明を背景に捉えることに焦 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.MM | コメントを受け付けていません

Estimating Visual Information From Audio Through Manifold Learning

投稿日: 2022年9月14日作成者: jarxiv

要約オーディオ信号のみを使用してシーンに関する視覚情報を抽出するための新しいフ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Learning Audio-Visual embedding for Wild Person Verification

投稿日: 2022年9月12日作成者: jarxiv

要約これらの 2 つのモダリティからオーディオビジュアル埋め込みを抽出して、人 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

CorrI2P: Deep Image-to-Point Cloud Registration via Dense Correspondence

Learning to Evaluate Performance of Multi-modal Semantic Localization

AutoLV: Automatic Lecture Video Generator

Rethinking Data Augmentation for Robust Visual Question Answering

Learning to Evaluate Performance of Multi-modal Semantic Localization

Learning to Evaluate Performance of Multi-modal Semantic Localization

MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage Learning

Time-of-Day Neural Style Transfer for Architectural Photographs

Estimating Visual Information From Audio Through Manifold Learning

Learning Audio-Visual embedding for Wild Person Verification

最近の投稿

最近のコメント

アーカイブ

カテゴリー