cs.CV」カテゴリーアーカイブ

TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving

要約 近年、拡散モデルは、ビジョン生成から言語モデリングまで、多様なドメイン全体 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

Behind Maya: Building a Multilingual Vision Language Model

要約 最近では、大規模なビジョン言語モデル(VLM)の急速な発展が見られました。 … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする

Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training

要約 トレーニング前の標準的な大きな視覚言語モデル(LVLMS)では、モデルは通 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | コメントする

BioVFM-21M: Benchmarking and Scaling Self-Supervised Vision Foundation Models for Biomedical Image Analysis

要約 モデルとデータサイズのスケーリングにより、幅広いタスクよりも印象的なパフォ … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

DCSNet: A Lightweight Knowledge Distillation-Based Model with Explainable AI for Lung Cancer Diagnosis from Histopathological Images

要約 肺がんは、生存率を改善するために早期発見と正確な診断が重要である世界的に癌 … 続きを読む

カテゴリー: cs.CV, eess.IV | コメントする

Unsupervised Multiview Contrastive Language-Image Joint Learning with Pseudo-Labeled Prompts Via Vision-Language Model for 3D/4D Facial Expression Recognition

要約 このペーパーでは、3D/4Dデータからの顔の感情の監視されていない対照的な … 続きを読む

カテゴリー: cs.CV | コメントする

GreenFactory: Ensembling Zero-Cost Proxies to Estimate Performance of Neural Networks

要約 最適なアーキテクチャとハイパーパラメーターを特定するには、神経アーキテクチ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

3D Cartoon Face Generation with Controllable Expressions from a Single GAN Image

要約 この論文では、単一の2D GAN生成された人間の顔から3D監督なしで3D漫 … 続きを読む

カテゴリー: cs.CV | コメントする

PRISM: A Unified Framework for Photorealistic Reconstruction and Intrinsic Scene Modeling

要約 単一の基礎モデルで複数の画像生成と編集タスクを可能にする統一されたフレーム … 続きを読む

カテゴリー: cs.CV, cs.GR | コメントする

MCP-MedSAM: A Powerful Lightweight Medical Segment Anything Model Trained with a Single GPU in Just One Day

要約 医療画像のセグメンテーションには、解剖学的構造と病変の特定に焦点を当てた医 … 続きを読む

カテゴリー: cs.CV | コメントする