cs.CV」カテゴリーアーカイブ

Mamba2D: A Natively Multi-Dimensional State-Space Model for Vision Tasks

要約 状態空間モデル (SSM) は、長年のトランスフォーマー アーキテクチャに … 続きを読む

カテゴリー: cs.CV | Mamba2D: A Natively Multi-Dimensional State-Space Model for Vision Tasks はコメントを受け付けていません

SeagrassFinder: Deep Learning for Eelgrass Detection and Coverage Estimation in the Wild

要約 海草草原は海洋生態系において重要な役割を果たしており、炭素隔離、水質改善、 … 続きを読む

カテゴリー: cs.CV | SeagrassFinder: Deep Learning for Eelgrass Detection and Coverage Estimation in the Wild はコメントを受け付けていません

Frequency Is What You Need: Word-frequency Masking Benefits Vision-Language Model Pre-training

要約 トレーニング セットのサイズを縮小できれば、ビジョン言語モデル (VLM) … 続きを読む

カテゴリー: cs.CV | Frequency Is What You Need: Word-frequency Masking Benefits Vision-Language Model Pre-training はコメントを受け付けていません

MotiF: Making Text Count in Image Animation with Motion Focal Loss

要約 Text-Image-to-Video (TI2V) 生成は、テキストの説 … 続きを読む

カテゴリー: cs.AI, cs.CV | MotiF: Making Text Count in Image Animation with Motion Focal Loss はコメントを受け付けていません

Can Generative Video Models Help Pose Estimation?

要約 重なりがほとんどまたはまったくない画像からのペアごとの姿勢推定は、コンピュ … 続きを読む

カテゴリー: cs.CV | Can Generative Video Models Help Pose Estimation? はコメントを受け付けていません

Personalized Representation from Personalized Generation

要約 最新のビジョン モデルは、汎用の下流タスクに優れています。 ただし、粒度が … 続きを読む

カテゴリー: cs.CV, cs.LG | Personalized Representation from Personalized Generation はコメントを受け付けていません

HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding

要約 大規模言語モデル (LLM) の急速な進歩により、ビジョン言語モデル (V … 続きを読む

カテゴリー: cs.CV | HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding はコメントを受け付けていません

GURecon: Learning Detailed 3D Geometric Uncertainties for Neural Surface Reconstruction

要約 神経表面表現は、新しいビューの合成と 3D 再構成の分野で目覚ましい成功を … 続きを読む

カテゴリー: cs.CV | GURecon: Learning Detailed 3D Geometric Uncertainties for Neural Surface Reconstruction はコメントを受け付けていません

A Deep Learning-Based Fully Automated Pipeline for Regurgitant Mitral Valve Anatomy Analysis From 3D Echocardiography

要約 三次元経食道心エコー検査(3DTEE)は、外科的修復または経カテーテル修復 … 続きを読む

カテゴリー: cs.CV, q-bio.QM | A Deep Learning-Based Fully Automated Pipeline for Regurgitant Mitral Valve Anatomy Analysis From 3D Echocardiography はコメントを受け付けていません

Temporally Consistent Object-Centric Learning by Contrasting Slots

要約 ビデオからの教師なしオブジェクト中心学習は、ラベルのない大規模なビデオのコ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Temporally Consistent Object-Centric Learning by Contrasting Slots はコメントを受け付けていません