月別アーカイブ: 2022年9月

Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models

投稿日: 2022年9月16日作成者: jarxiv

要約事前にトレーニングされたビジョン言語モデル (CLIP など) は、適切に … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Distribution Aware Metrics for Conditional Natural Language Generation

投稿日: 2022年9月16日作成者: jarxiv

要約条件付き自然言語生成を評価するための従来の自動化されたメトリクスは、単一の … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

On-Device Domain Generalization

投稿日: 2022年9月16日作成者: jarxiv

要約小さなニューラルネットワークのドメイン一般化 (DG) の体系的な研究を … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Test-Time Training with Masked Autoencoders

投稿日: 2022年9月16日作成者: jarxiv

要約テスト時間トレーニングは、自己監視を使用して各テスト入力のモデルを最適化す … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

DoodleFormer: Creative Sketch Drawing with Transformers

投稿日: 2022年9月16日作成者: jarxiv

要約創造的なスケッチや落書きは表現活動であり、日常の視覚的オブジェクトの想像力 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

OmniVL:One Foundation Model for Image-Language and Video-Language Tasks

投稿日: 2022年9月16日作成者: jarxiv

要約このホワイトペーパーでは、1 つのユニバーサルアーキテクチャを使用して … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

NAAP-440 Dataset and Baseline for Neural Architecture Accuracy Prediction

投稿日: 2022年9月16日作成者: jarxiv

要約ニューラルアーキテクチャ検索 (NAS) は、さまざまなターゲットプラ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.NE | コメントを受け付けていません

Learning to Evaluate Performance of Multi-modal Semantic Localization

投稿日: 2022年9月16日作成者: jarxiv

要約セマンティックローカリゼーション (SeLo) は、テキストなどのセマン … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Private Eye: On the Limits of Textual Screen Peeking via Eyeglass Reflections in Video Conferencing

投稿日: 2022年9月15日作成者: jarxiv

要約この研究では、数学的モデリングと人間を対象とした実験を使用して、新しいウェ … 続きを読む →

カテゴリー: cs.CR, cs.CV | コメントを受け付けていません

Point Cloud Registration-Driven Robust Feature Matching for 3D Siamese Object Tracking

投稿日: 2022年9月15日作成者: jarxiv

要約テンプレートと検索領域の間の堅牢な特徴の一致を学習することは、3D シャム … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

月別アーカイブ: 2022年9月

Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models

Distribution Aware Metrics for Conditional Natural Language Generation

On-Device Domain Generalization

Test-Time Training with Masked Autoencoders

DoodleFormer: Creative Sketch Drawing with Transformers

OmniVL:One Foundation Model for Image-Language and Video-Language Tasks

NAAP-440 Dataset and Baseline for Neural Architecture Accuracy Prediction

Learning to Evaluate Performance of Multi-modal Semantic Localization

Private Eye: On the Limits of Textual Screen Peeking via Eyeglass Reflections in Video Conferencing

Point Cloud Registration-Driven Robust Feature Matching for 3D Siamese Object Tracking

最近の投稿

最近のコメント

アーカイブ

カテゴリー