月別アーカイブ: 2023年2月

DirectMHP: Direct 2D Multi-Person Head Pose Estimation with Full-range Angles

投稿日: 2023年2月15日作成者: jarxiv

要約既存の頭部姿勢推定 (HPE) は主に、前頭頭が事前に検出された 1 人の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Does CLIP Know My Face?

投稿日: 2023年2月15日作成者: jarxiv

要約さまざまなアプリケーションでの深層学習の台頭に伴い、トレーニングデータの … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.LG | コメントを受け付けていません

Understanding and Mitigating Overfitting in Prompt Tuning for Vision-Language Models

投稿日: 2023年2月15日作成者: jarxiv

要約 CLIP などの事前トレーニング済みのビジョン言語モデル (VLM) は、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

What do CNNs Learn in the First Layer and Why? A Linear Systems Perspective

投稿日: 2023年2月15日作成者: jarxiv

要約深い畳み込みニューラルネットワーク (CNN) の最初の層で学習される表 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Team-DETR: Guide Queries as a Professional Team in Detection Transformers

投稿日: 2023年2月15日作成者: jarxiv

要約最近提案された DETR バリアントは、合理化されたプロセスと優れたパフォ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Universal Guidance for Diffusion Models

投稿日: 2023年2月15日作成者: jarxiv

要約典型的な拡散モデルは、特定の形式の条件付け (最も一般的にはテキスト) を … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

All in Tokens: Unifying Output Space of Visual Tasks via Soft Token

投稿日: 2023年2月15日作成者: jarxiv

要約通常、出力空間が一連のトークンに限定される言語タスクとは異なり、視覚タスク … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

A Comprehensive Study of Real-Time Object Detection Networks Across Multiple Domains: A Survey

投稿日: 2023年2月15日作成者: jarxiv

要約ディープニューラルネットワークベースのオブジェクト検出器は継続的に進 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Expressive Talking Head Video Encoding in StyleGAN2 Latent-Space

投稿日: 2023年2月15日作成者: jarxiv

要約ビデオの再現に関する研究の最近の進歩は有望な結果をもたらしましたが、そのア … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Extracting Effective Subnetworks with Gumbel-Softmax

投稿日: 2023年2月15日作成者: jarxiv

要約大規模でパフォーマンスの高いニューラルネットワークは、多くの場合、パラメ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2023年2月

DirectMHP: Direct 2D Multi-Person Head Pose Estimation with Full-range Angles

Does CLIP Know My Face?

Understanding and Mitigating Overfitting in Prompt Tuning for Vision-Language Models

What do CNNs Learn in the First Layer and Why? A Linear Systems Perspective

Team-DETR: Guide Queries as a Professional Team in Detection Transformers

Universal Guidance for Diffusion Models

All in Tokens: Unifying Output Space of Visual Tasks via Soft Token

A Comprehensive Study of Real-Time Object Detection Networks Across Multiple Domains: A Survey

Expressive Talking Head Video Encoding in StyleGAN2 Latent-Space

Extracting Effective Subnetworks with Gumbel-Softmax

最近の投稿

最近のコメント

アーカイブ

カテゴリー