月別アーカイブ: 2022年6月

Enhancing Egocentric 3D Pose Estimation with Third Person Views

投稿日: 2022年6月16日作成者: jarxiv

要約この論文では、単一のウェアラブルカメラからキャプチャされたビデオから計算さ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Bringing Image Scene Structure to Video via Frame-Clip Consistency of Object Tokens

投稿日: 2022年6月16日作成者: jarxiv

要約最近の行動認識モデルは、オブジェクト、その位置、および相互作用を統合するこ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Real3D-Aug: Point Cloud Augmentation by Placing Real Objects with Occlusion Handling for 3D Detection and Segmentation

投稿日: 2022年6月16日作成者: jarxiv

要約 3D LIDARポイントクラウドデータを使用したオブジェクト検出とセマンテ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

投稿日: 2022年6月16日作成者: jarxiv

要約視覚言語（VL）の事前トレーニングは、最近かなりの注目を集めています。た … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Learning a model of shape selectivity in V4 cells reveals shape encoding mechanisms in the brain

投稿日: 2022年6月16日作成者: jarxiv

要約初期の視覚信号をV4の曲率表現に変換することに関与するメカニズムは不明です … 続きを読む →

カテゴリー: cs.CV, q-bio.NC | コメントを受け付けていません

Multimodal Dual Emotion with Fusion of Visual Sentiment for Rumor Detection

投稿日: 2022年6月16日作成者: jarxiv

要約近年、うわさは社会に壊滅的な影響を及ぼしており、うわさの検出は重要な課題と … 続きを読む →

カテゴリー: cs.CV, cs.CY | コメントを受け付けていません

SP-ViT: Learning 2D Spatial Priors for Vision Transformers

投稿日: 2022年6月16日作成者: jarxiv

要約最近、トランスフォーマーは画像分類において大きな可能性を示し、ImageN … 続きを読む →

カテゴリー: cs.CV, I.4 | コメントを受け付けていません

CRISP – Reliable Uncertainty Estimation for Medical Image Segmentation

投稿日: 2022年6月16日作成者: jarxiv

要約正確な不確実性の推定は、医用画像コミュニティにとって非常に重要です。さま … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

A Unified Sequence Interface for Vision Tasks

投稿日: 2022年6月16日作成者: jarxiv

要約言語タスクは、単一の統一されたモデリングフレームワークで自然に表現されます … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

VRT: A Video Restoration Transformer

投稿日: 2022年6月16日作成者: jarxiv

要約ビデオの復元（ビデオの超解像など）は、低品質のフレームから高品質のフレーム … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

月別アーカイブ: 2022年6月

Enhancing Egocentric 3D Pose Estimation with Third Person Views

Bringing Image Scene Structure to Video via Frame-Clip Consistency of Object Tokens

Real3D-Aug: Point Cloud Augmentation by Placing Real Objects with Occlusion Handling for 3D Detection and Segmentation

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

Learning a model of shape selectivity in V4 cells reveals shape encoding mechanisms in the brain

Multimodal Dual Emotion with Fusion of Visual Sentiment for Rumor Detection

SP-ViT: Learning 2D Spatial Priors for Vision Transformers

CRISP – Reliable Uncertainty Estimation for Medical Image Segmentation

A Unified Sequence Interface for Vision Tasks

VRT: A Video Restoration Transformer

最近の投稿

最近のコメント

アーカイブ

カテゴリー