月別アーカイブ: 2024年1月

Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training

投稿日: 2024年1月5日作成者: jarxiv

要約画像キャプションは、画像の説明的で意味のあるテキスト記述を生成し、幅広い視 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Audiovisual Masked Autoencoders

投稿日: 2024年1月5日作成者: jarxiv

要約自己教師付き表現学習を改善するために、ビデオに既に存在する視聴覚情報を活用 … 続きを読む →

カテゴリー: cs.CV, cs.SD | コメントを受け付けていません

Fit-NGP: Fitting Object Models to Neural Graphics Primitives

投稿日: 2024年1月5日作成者: jarxiv

要約正確な3D物体姿勢推定は、困難な物体相互作用を伴う多くのロボットアプリケー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A novel method to enhance pneumonia detection via a model-level ensembling of CNN and vision transformer

投稿日: 2024年1月5日作成者: jarxiv

要約肺炎は依然として世界的な罹患率と死亡率の主要原因である。胸部X線（CXR） … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

An Open and Comprehensive Pipeline for Unified Object Grounding and Detection

投稿日: 2024年1月5日作成者: jarxiv

要約 Grounding-DINOは、Open-Vocabulary Detec … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Survey of 3D Human Body Pose and Shape Estimation Methods for Contemporary Dance Applications

投稿日: 2024年1月5日作成者: jarxiv

要約 RGB画像からの3次元人体形状・姿勢推定は、拡張／仮想現実、ヘルスケア、フ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning

投稿日: 2024年1月5日作成者: jarxiv

要約チャートは、データの可視化、データパターンの理解、情報に基づいた意思決定に … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

UpFusion: Novel View Diffusion from Unposed Sparse View Observations

投稿日: 2024年1月5日作成者: jarxiv

要約我々はUpFusionを提案する。UpFusionは新しいビュー合成を行い … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Learning the 3D Fauna of the Web

投稿日: 2024年1月5日作成者: jarxiv

要約地球上のすべての動物の3Dモデルを学習するには、既存のソリューションを大幅 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Learning to Generalize towards Unseen Domains via a Content-Aware Style Invariant Model for Disease Detection from Chest X-rays

投稿日: 2024年1月5日作成者: jarxiv

要約分布の不一致による性能低下は、インテリジェントイメージング、特に胸部X線（ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | コメントを受け付けていません

月別アーカイブ: 2024年1月

Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training

Audiovisual Masked Autoencoders

Fit-NGP: Fitting Object Models to Neural Graphics Primitives

A novel method to enhance pneumonia detection via a model-level ensembling of CNN and vision transformer

An Open and Comprehensive Pipeline for Unified Object Grounding and Detection

Survey of 3D Human Body Pose and Shape Estimation Methods for Contemporary Dance Applications

ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning

UpFusion: Novel View Diffusion from Unposed Sparse View Observations

Learning the 3D Fauna of the Web

Learning to Generalize towards Unseen Domains via a Content-Aware Style Invariant Model for Disease Detection from Chest X-rays

最近の投稿

最近のコメント

アーカイブ

カテゴリー