月別アーカイブ: 2024年4月

BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition

要約 最近、自己監視は、ラベルのないデータから視覚的および聴覚的な音声表現を学習 … 続きを読む

カテゴリー: cs.CV | BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition はコメントを受け付けていません

CameraCtrl: Enabling Camera Control for Text-to-Video Generation

要約 制御性は、ユーザーが希望のコンテンツを作成できるため、ビデオ生成において重 … 続きを読む

カテゴリー: cs.CV | CameraCtrl: Enabling Camera Control for Text-to-Video Generation はコメントを受け付けていません

Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation

要約 ほとんどのドメイン アダプテーション (DA) 手法は、畳み込みニューラル … 続きを読む

カテゴリー: cs.CV | Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation はコメントを受け付けていません

Neural Ordinary Differential Equation based Sequential Image Registration for Dynamic Characterization

要約 変形可能な画像レジストレーション (DIR) は、医療画像解析において極め … 続きを読む

カテゴリー: cs.CE, cs.CV | Neural Ordinary Differential Equation based Sequential Image Registration for Dynamic Characterization はコメントを受け付けていません

GDA: Generalized Diffusion for Robust Test-time Adaptation

要約 機械学習モデルは、予期せぬ分布の変化を伴う分布外 (OOD) サンプルに遭 … 続きを読む

カテゴリー: cs.CV | GDA: Generalized Diffusion for Robust Test-time Adaptation はコメントを受け付けていません

MedMamba: Vision Mamba for Medical Image Classification

要約 医療画像の分類は、コンピューター ビジョンの分野において非常に基本的かつ重 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | MedMamba: Vision Mamba for Medical Image Classification はコメントを受け付けていません

ImageNot: A contrast with ImageNet preserves model rankings

要約 ImageNot を紹介します。これは、ImageNet の規模に一致する … 続きを読む

カテゴリー: cs.CV, cs.LG | ImageNot: A contrast with ImageNet preserves model rankings はコメントを受け付けていません

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

要約 我々は、画像のペアから 3D ガウス プリミティブによってパラメータ化され … 続きを読む

カテゴリー: cs.CV, cs.LG | pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction はコメントを受け付けていません

Pre-trained Vision and Language Transformers Are Few-Shot Incremental Learners

要約 Few-Shot Class Incremental Learning ( … 続きを読む

カテゴリー: cs.CV | Pre-trained Vision and Language Transformers Are Few-Shot Incremental Learners はコメントを受け付けていません

3D Congealing: 3D-Aware Image Alignment in the Wild

要約 我々は、意味的に類似したオブジェクトをキャプチャする 2D 画像の 3D … 続きを読む

カテゴリー: cs.CV | 3D Congealing: 3D-Aware Image Alignment in the Wild はコメントを受け付けていません