月別アーカイブ: 2025年1月

Self-supervised video pretraining yields robust and more human-aligned visual representations

投稿日: 2025年1月13日作成者: jarxiv

要約人間は、時間の経過とともにそれらがどのように進化するかを観察することによっ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

投稿日: 2025年1月13日作成者: jarxiv

要約トレーニング中にペアの合成シーン画像を必要としない、効果的なゼロショット … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Improving Medical Visual Representations via Radiology Report Generation

投稿日: 2025年1月13日作成者: jarxiv

要約ビジョン言語の事前トレーニングは、下流のコンピュータービジョンタスクに … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Self-Supervised Masked Mesh Learning for Unsupervised Anomaly Detection on 3D Cortical Surfaces

投稿日: 2025年1月13日作成者: jarxiv

要約脳画像処理における教師なし異常検出は困難です。この論文では、3D 皮質表 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Pixel Is Not A Barrier: An Effective Evasion Attack for Pixel-Domain Diffusion Models

投稿日: 2025年1月13日作成者: jarxiv

要約拡散モデルは、高品質の画像合成のための強力な生成モデルとして登場し、その後 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey

投稿日: 2025年1月13日作成者: jarxiv

要約マルチモーダルビジョンランゲージモデル (VLM) は、コンピュータ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

MS-Temba : Multi-Scale Temporal Mamba for Efficient Temporal Action Detection

投稿日: 2025年1月13日作成者: jarxiv

要約 1 時間のトリミングされていないビデオではアクションが密に分散されているた … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Two Stage Segmentation of Cervical Tumors using PocketNet

投稿日: 2025年1月13日作成者: jarxiv

要約子宮頸がんは、依然として世界中の女性の間で 4 番目に多い悪性腫瘍です。1 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Guess What I Think: Streamlined EEG-to-Image Generation with Latent Diffusion Models

投稿日: 2025年1月13日作成者: jarxiv

要約脳波から画像を生成することは、脳信号がどのように視覚的手がかりをエンコード … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

PySpatial: A High-Speed Whole Slide Image Pathomics Toolkit

投稿日: 2025年1月13日作成者: jarxiv

要約全体スライド画像 (WSI) 解析は、現代のデジタル病理学において重要な役 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

月別アーカイブ: 2025年1月

Self-supervised video pretraining yields robust and more human-aligned visual representations

ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

Improving Medical Visual Representations via Radiology Report Generation

Self-Supervised Masked Mesh Learning for Unsupervised Anomaly Detection on 3D Cortical Surfaces

Pixel Is Not A Barrier: An Effective Evasion Attack for Pixel-Domain Diffusion Models

Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey

MS-Temba : Multi-Scale Temporal Mamba for Efficient Temporal Action Detection

Two Stage Segmentation of Cervical Tumors using PocketNet

Guess What I Think: Streamlined EEG-to-Image Generation with Latent Diffusion Models

PySpatial: A High-Speed Whole Slide Image Pathomics Toolkit

最近の投稿

最近のコメント

アーカイブ

カテゴリー