月別アーカイブ: 2022年9月

MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage Learning

投稿日: 2022年9月15日作成者: jarxiv

要約以前のビジョン言語事前トレーニングモデルは、主にトークンとオブジェクト … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

NAAP-440 Dataset and Baseline for Network Architecture Accuracy Prediction

投稿日: 2022年9月15日作成者: jarxiv

要約ネットワークアーキテクチャ検索 (NAS) は、さまざまなターゲットプ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.NE | コメントを受け付けていません

A multi view multi stage and multi window framework for pulmonary artery segmentation from CT scans

投稿日: 2022年9月15日作成者: jarxiv

要約 PARSE2022 Challengeの最終リザルト9位のテクニカルレポー … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

Transformers and CNNs both Beat Humans on SBIR

投稿日: 2022年9月15日作成者: jarxiv

要約スケッチベースの画像検索 (SBIR) は、手書きスケッチクエリのセマン … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IR, I.2.10 | コメントを受け付けていません

Point cloud completion via structured feature maps using a feedback network

投稿日: 2022年9月15日作成者: jarxiv

要約この論文では、特徴学習の観点から点群補完の挑戦的な問題に取り組みます。私 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

WildQA: In-the-Wild Video Question Answering

投稿日: 2022年9月15日作成者: jarxiv

要約既存のビデオ理解データセットは、主に人間とのやり取りに焦点を当てており、ビ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video

投稿日: 2022年9月15日作成者: jarxiv

要約オーディオビジュアル自動音声認識 (AV-ASR) は、追加の情報源として … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

FreeGaze: Resource-efficient Gaze Estimation via Frequency Domain Contrastive Learning

投稿日: 2022年9月15日作成者: jarxiv

要約視線推定は、認知心理学の基礎研究から注意を認識するモバイルシステムに至る … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Out-of-Vocabulary Challenge Report

投稿日: 2022年9月15日作成者: jarxiv

要約このホワイトペーパーでは、Out-Of-Vocabulary 2022 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Efficient Unsupervised Learning for Plankton Images

投稿日: 2022年9月15日作成者: jarxiv

要約その場でプランクトンの個体数を監視することは、水生生態系を維持するための基 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

月別アーカイブ: 2022年9月

MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage Learning

NAAP-440 Dataset and Baseline for Network Architecture Accuracy Prediction

A multi view multi stage and multi window framework for pulmonary artery segmentation from CT scans

Transformers and CNNs both Beat Humans on SBIR

Point cloud completion via structured feature maps using a feedback network

WildQA: In-the-Wild Video Question Answering

Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video

FreeGaze: Resource-efficient Gaze Estimation via Frequency Domain Contrastive Learning

Out-of-Vocabulary Challenge Report

Efficient Unsupervised Learning for Plankton Images

最近の投稿

最近のコメント

アーカイブ

カテゴリー