「cs.MM」カテゴリーアーカイブ

VICTOR: Visual Incompatibility Detection with Transformers and Fashion-specific contrastive pre-training

投稿日: 2022年9月9日作成者: jarxiv

要約ファッションの着こなしが美的であるとみなされるためには、それを構成する衣服 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering

投稿日: 2022年9月9日作成者: jarxiv

要約マルチモーダルビデオ質問応答は、正解を予測し、質問に関連する時間的境界を局 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Saliency-based Multiple Region of Interest Detection from a Single 360° image

投稿日: 2022年9月9日作成者: jarxiv

要約 360度画像は、カメラ周辺の全方位的な視覚情報を含んでいるため、情報量が豊 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

CorrI2P: Deep Image-to-Point Cloud Registration via Dense Correspondence

投稿日: 2022年9月8日作成者: jarxiv

要約本論文では、2次元画像を3次元点群に位置決めするための重要なステップは、両 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

DM$^2$S$^2$: Deep Multi-Modal Sequence Sets with Hierarchical Modality Attention

投稿日: 2022年9月8日作成者: jarxiv

要約デジタル広告や電子商取引などの様々なウェブアプリケーションにおいて、マルチ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Identification of Small Objects in Satellite Image Benchmarks

投稿日: 2022年9月7日作成者: jarxiv

要約近年の航空画像へのアクセスと量の増加、計算能力の向上、およびアプリケーショ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Cross Modal Compression: Towards Human-comprehensible Semantic Compression

投稿日: 2022年9月7日作成者: jarxiv

要約従来の画像・映像圧縮は、信号の忠実度をできるだけ高くして、伝送・保存コスト … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

Geometry Aligned Variational Transformer for Image-conditioned Layout Generation

投稿日: 2022年9月5日作成者: jarxiv

要約レイアウト生成は、物体定位と美的評価の両方の課題を兼ね備えたコンピュータビ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Confidence-Aware Active Feedback for Interactive Instance Search

投稿日: 2022年9月5日作成者: jarxiv

要約オンライン関連性フィードバック(RF)は不完全なランキング結果をさらに洗練 … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.MM | コメントを受け付けていません

GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement

投稿日: 2022年9月2日作成者: jarxiv

要約 Grounded Situation Recognition (GSR) … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

VICTOR: Visual Incompatibility Detection with Transformers and Fashion-specific contrastive pre-training

Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering

Saliency-based Multiple Region of Interest Detection from a Single 360° image

CorrI2P: Deep Image-to-Point Cloud Registration via Dense Correspondence

DM$^2$S$^2$: Deep Multi-Modal Sequence Sets with Hierarchical Modality Attention

Identification of Small Objects in Satellite Image Benchmarks

Cross Modal Compression: Towards Human-comprehensible Semantic Compression

Geometry Aligned Variational Transformer for Image-conditioned Layout Generation

Confidence-Aware Active Feedback for Interactive Instance Search

GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement

最近の投稿

最近のコメント

アーカイブ

カテゴリー