月別アーカイブ: 2024年4月

BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition

投稿日: 2024年4月3日作成者: jarxiv

要約最近、自己監視は、ラベルのないデータから視覚的および聴覚的な音声表現を学習 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CameraCtrl: Enabling Camera Control for Text-to-Video Generation

投稿日: 2024年4月3日作成者: jarxiv

要約制御性は、ユーザーが希望のコンテンツを作成できるため、ビデオ生成において重 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation

投稿日: 2024年4月3日作成者: jarxiv

要約ほとんどのドメインアダプテーション (DA) 手法は、畳み込みニューラル … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Neural Ordinary Differential Equation based Sequential Image Registration for Dynamic Characterization

投稿日: 2024年4月3日作成者: jarxiv

要約変形可能な画像レジストレーション (DIR) は、医療画像解析において極め … 続きを読む →

カテゴリー: cs.CE, cs.CV | コメントを受け付けていません

GDA: Generalized Diffusion for Robust Test-time Adaptation

投稿日: 2024年4月3日作成者: jarxiv

要約機械学習モデルは、予期せぬ分布の変化を伴う分布外 (OOD) サンプルに遭 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MedMamba: Vision Mamba for Medical Image Classification

投稿日: 2024年4月3日作成者: jarxiv

要約医療画像の分類は、コンピュータービジョンの分野において非常に基本的かつ重 … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

ImageNot: A contrast with ImageNet preserves model rankings

投稿日: 2024年4月3日作成者: jarxiv

要約 ImageNot を紹介します。これは、ImageNet の規模に一致する … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

投稿日: 2024年4月3日作成者: jarxiv

要約我々は、画像のペアから 3D ガウスプリミティブによってパラメータ化され … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Pre-trained Vision and Language Transformers Are Few-Shot Incremental Learners

投稿日: 2024年4月3日作成者: jarxiv

要約 Few-Shot Class Incremental Learning ( … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

3D Congealing: 3D-Aware Image Alignment in the Wild

投稿日: 2024年4月3日作成者: jarxiv

要約我々は、意味的に類似したオブジェクトをキャプチャする 2D 画像の 3D … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年4月

BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition

CameraCtrl: Enabling Camera Control for Text-to-Video Generation

Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation

Neural Ordinary Differential Equation based Sequential Image Registration for Dynamic Characterization

GDA: Generalized Diffusion for Robust Test-time Adaptation

MedMamba: Vision Mamba for Medical Image Classification

ImageNot: A contrast with ImageNet preserves model rankings

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

Pre-trained Vision and Language Transformers Are Few-Shot Incremental Learners

3D Congealing: 3D-Aware Image Alignment in the Wild

最近の投稿

最近のコメント

アーカイブ

カテゴリー