「cs.CV」カテゴリーアーカイブ

Controlling Human Shape and Pose in Text-to-Image Diffusion Models via Domain Adaptation

投稿日: 2024年11月8日作成者: jarxiv

要約 3D ヒューマンパラメトリックモデル (SMPL) を使用して、事前学習 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Convolutional Differentiable Logic Gate Networks

投稿日: 2024年11月8日作成者: jarxiv

要約機械学習モデルの推論コストの増加に伴い、高速かつ効率的な推論を備えたモデル … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Taming Rectified Flow for Inversion and Editing

投稿日: 2024年11月8日作成者: jarxiv

要約 FLUX や OpenSora などの整流ベースの拡散変圧器は、画像および … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SpikeBottleNet: Spike-Driven Feature Compression Architecture for Edge-Cloud Co-Inference

投稿日: 2024年11月8日作成者: jarxiv

要約エッジとクラウドの協調推論は、エッジデバイスとクラウドサーバーの間でア … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DiT4Edit: Diffusion Transformer for Image Editing

投稿日: 2024年11月8日作成者: jarxiv

要約 UNet ベースの画像編集は最近進歩していますが、高解像度画像で形状を認識 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

An Effective Pipeline for Whole-Slide Image Glomerulus Segmentation

投稿日: 2024年11月8日作成者: jarxiv

要約全スライド画像 (WSI) 糸球体のセグメンテーションは、腎臓疾患を正確に … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

BrainSegFounder: Towards 3D Foundation Models for Neuroimage Segmentation

投稿日: 2024年11月8日作成者: jarxiv

要約脳の健康研究の急成長分野では、神経学的データの解釈と分析に人工知能 (AI … 続きを読む →

カテゴリー: cs.CV, eess.IV, q-bio.NC | コメントを受け付けていません

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance

投稿日: 2024年11月8日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、幅広い領域にわたる視覚言 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MPVO: Motion-Prior based Visual Odometry for PointGoal Navigation

投稿日: 2024年11月8日作成者: jarxiv

要約ビジュアルオドメトリ (VO) は、GPS センサーやコンパスセンサー … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Interpreting CLIP: Insights on the Robustness to ImageNet Distribution Shifts

投稿日: 2024年11月8日作成者: jarxiv

要約ロバストなモデルとロバストでないモデルの違いは何でしょうか? ImageN … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Controlling Human Shape and Pose in Text-to-Image Diffusion Models via Domain Adaptation

Convolutional Differentiable Logic Gate Networks

Taming Rectified Flow for Inversion and Editing

SpikeBottleNet: Spike-Driven Feature Compression Architecture for Edge-Cloud Co-Inference

DiT4Edit: Diffusion Transformer for Image Editing

An Effective Pipeline for Whole-Slide Image Glomerulus Segmentation

BrainSegFounder: Towards 3D Foundation Models for Neuroimage Segmentation

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance

MPVO: Motion-Prior based Visual Odometry for PointGoal Navigation

Interpreting CLIP: Insights on the Robustness to ImageNet Distribution Shifts

最近の投稿

最近のコメント

アーカイブ

カテゴリー