月別アーカイブ: 2022年9月

Levenshtein OCR

投稿日: 2022年9月9日作成者: jarxiv

要約 Vision-Language Transformer (VLT)に基づく … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VICTOR: Visual Incompatibility Detection with Transformers and Fashion-specific contrastive pre-training

投稿日: 2022年9月9日作成者: jarxiv

要約ファッションの着こなしが美的であるとみなされるためには、それを構成する衣服 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

nVFNet-RDC: Replay and Non-Local Distillation Collaboration for Continual Object Detection

投稿日: 2022年9月9日作成者: jarxiv

要約継続的学習（Continual Learning: CL）は、新しい環境に … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

TransCrowd: weakly-supervised crowd counting with transformers

投稿日: 2022年9月9日作成者: jarxiv

要約群衆計測の主流は、通常、畳み込みニューラルネットワーク（CNN）を利用して … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

An Iteratively Optimized Patch Label Inference Network for Automatic Pavement Distress Detection

投稿日: 2022年9月9日作成者: jarxiv

要約我々は、ひび割れやポットホールなどの特定のものだけに限定されない様々な舗装 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Exploring Adversarial Attacks and Defenses in Vision Transformers trained with DINO

投稿日: 2022年9月9日作成者: jarxiv

要約本研究では、DINOを用いて学習した自己教師ありVision Transf … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering

投稿日: 2022年9月9日作成者: jarxiv

要約マルチモーダルビデオ質問応答は、正解を予測し、質問に関連する時間的境界を局 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Representing Camera Response Function by a Single Latent Variable and Fully Connected Neural Network

投稿日: 2022年9月9日作成者: jarxiv

要約シーン照度から画像強度へのマッピングをモデル化することは、多くのコンピュー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Application of image-to-image translation in improving pedestrian detection

投稿日: 2022年9月9日作成者: jarxiv

要約低照度下では、有効なターゲット領域がないため、歩行者の認識や画像間の変換な … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Positive-Negative Equal Contrastive Loss for Semantic Segmentation

投稿日: 2022年9月9日作成者: jarxiv

要約文脈情報は様々なコンピュータビジョンタスクにとって重要であり、これまでの研 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2022年9月

Levenshtein OCR

VICTOR: Visual Incompatibility Detection with Transformers and Fashion-specific contrastive pre-training

nVFNet-RDC: Replay and Non-Local Distillation Collaboration for Continual Object Detection

TransCrowd: weakly-supervised crowd counting with transformers

An Iteratively Optimized Patch Label Inference Network for Automatic Pavement Distress Detection

Exploring Adversarial Attacks and Defenses in Vision Transformers trained with DINO

Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering

Representing Camera Response Function by a Single Latent Variable and Fully Connected Neural Network

Application of image-to-image translation in improving pedestrian detection

Positive-Negative Equal Contrastive Loss for Semantic Segmentation

最近の投稿

最近のコメント

アーカイブ

カテゴリー