月別アーカイブ: 2024年9月

What to align in multimodal contrastive learning?

投稿日: 2024年9月12日作成者: jarxiv

要約人間は多感覚の統合を通じて世界を認識し、さまざまなモダリティの情報をブレン … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

NVRC: Neural Video Representation Compression

投稿日: 2024年9月12日作成者: jarxiv

要約暗黙的ニューラル表現 (INR) ベースのビデオコーディングの最近の進歩 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Efficient One-Step Diffusion Refinement for Snapshot Compressive Imaging

投稿日: 2024年9月12日作成者: jarxiv

要約コード化開口スナップショットスペクトルイメージング (CASSI) は … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Controllable retinal image synthesis using conditional StyleGAN and latent space manipulation for improved diagnosis and grading of diabetic retinopathy

投稿日: 2024年9月12日作成者: jarxiv

要約糖尿病性網膜症 (DR) は、網膜組織内の血管損傷を特徴とする糖尿病の結果 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

投稿日: 2024年9月12日作成者: jarxiv

要約私たちは、PyTorch に基づいた大規模なマルチモダリティモデルを評価 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability

投稿日: 2024年9月12日作成者: jarxiv

要約インクルージョンを促進し、主なコミュニケーション手段として手話に依存してい … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Physically Feasible Semantic Segmentation

投稿日: 2024年9月12日作成者: jarxiv

要約最先端のセマンティックセグメンテーションモデルは通常、データ駆動型の方 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RainMamba: Enhanced Locality Learning with State Space Models for Video Deraining

投稿日: 2024年9月12日作成者: jarxiv

要約屋外ビジョンシステムは、雨筋や雨滴によって頻繁に汚染され、視覚タスクやマ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Adaptive Adapter Routing for Long-Tailed Class-Incremental Learning

投稿日: 2024年9月12日作成者: jarxiv

要約進化し続ける世界では、電子商取引プラットフォームのレビューなど、新しいデー … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos

投稿日: 2024年9月12日作成者: jarxiv

要約この論文では、没入型体験における 3D コンテンツの需要の高まりに対応し、 … 続きを読む →

カテゴリー: cs.CV, cs.GR, I.3.0 | コメントを受け付けていません

月別アーカイブ: 2024年9月

What to align in multimodal contrastive learning?

NVRC: Neural Video Representation Compression

Efficient One-Step Diffusion Refinement for Snapshot Compressive Imaging

Controllable retinal image synthesis using conditional StyleGAN and latent space manipulation for improved diagnosis and grading of diabetic retinopathy

VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability

Physically Feasible Semantic Segmentation

RainMamba: Enhanced Locality Learning with State Space Models for Video Deraining

Adaptive Adapter Routing for Long-Tailed Class-Incremental Learning

StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos

最近の投稿

最近のコメント

アーカイブ

カテゴリー