月別アーカイブ: 2022年11月

Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection

投稿日: 2022年11月30日作成者: jarxiv

要約既存のオープン語彙オブジェクト検出器は通常、さまざまな形式の弱い監督を利用 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

RGB no more: Minimally-decoded JPEG Vision Transformers

投稿日: 2022年11月30日作成者: jarxiv

要約コンピュータビジョン用のほとんどのニューラルネットワークは、RGB 画 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

NeuralLift-360: Lifting An In-the-wild 2D Photo to A 3D Object with 360° Views

投稿日: 2022年11月30日作成者: jarxiv

要約仮想現実と拡張現実 (XR) により、3D コンテンツの需要が高まっていま … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Rethinking Transfer Learning for Medical Image Classification

投稿日: 2022年11月30日作成者: jarxiv

要約事前トレーニング済みのディープモデルからの転移学習 (TL) は、最新の … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

Birds of a Feather Trust Together: Knowing When to Trust a Classifier via Adaptive Neighborhood Aggregation

投稿日: 2022年11月30日作成者: jarxiv

要約分類器による予測がいつ信頼できるかを知るにはどうすればよいでしょうか? こ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion models

投稿日: 2022年11月30日作成者: jarxiv

要約従来、単眼 3D 人間の姿勢推定では、機械学習モデルを使用して、特定の入力 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Taming a Generative Model

投稿日: 2022年11月30日作成者: jarxiv

要約生成モデルはますます強力になり、非常にリアルな画像を合成できるようになって … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Abstract Visual Reasoning with Tangram Shapes

投稿日: 2022年11月30日作成者: jarxiv

要約人間と機械の抽象的な視覚的推論を研究するためのリソースである KiloGr … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Finding Differences Between Transformers and ConvNets Using Counterfactual Simulation Testing

投稿日: 2022年11月30日作成者: jarxiv

要約最新のディープニューラルネットワークは、静的テストセットで評価される … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Improving Commonsense in Vision-Language Models via Knowledge Graph Riddles

投稿日: 2022年11月30日作成者: jarxiv

要約このホワイトペーパーでは、最近普及している視覚言語 (VL) モデルの常 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

月別アーカイブ: 2022年11月

Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection

RGB no more: Minimally-decoded JPEG Vision Transformers

NeuralLift-360: Lifting An In-the-wild 2D Photo to A 3D Object with 360° Views

Rethinking Transfer Learning for Medical Image Classification

Birds of a Feather Trust Together: Knowing When to Trust a Classifier via Adaptive Neighborhood Aggregation

DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion models

Taming a Generative Model

Abstract Visual Reasoning with Tangram Shapes

Finding Differences Between Transformers and ConvNets Using Counterfactual Simulation Testing

Improving Commonsense in Vision-Language Models via Knowledge Graph Riddles

最近の投稿

最近のコメント

アーカイブ

カテゴリー