月別アーカイブ: 2024年7月

Enhancing Cell Instance Segmentation in Scanning Electron Microscopy Images via a Deep Contour Closing Operator

要約 SEM 画像内の細胞を正確にセグメント化し、個別化することは、腫瘍学におけ … 続きを読む

カテゴリー: cs.CV, eess.IV | Enhancing Cell Instance Segmentation in Scanning Electron Microscopy Images via a Deep Contour Closing Operator はコメントを受け付けていません

Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight

要約 このペーパーでは、マルチモーダル大規模言語モデル (MLLM) の事前トレ … 続きを読む

カテゴリー: cs.CV | Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight はコメントを受け付けていません

Detecting Brittle Decisions for Free: Leveraging Margin Consistency in Deep Robust Classifiers

要約 堅牢性を向上させるための敵対的トレーニング戦略に関する広範な研究にもかかわ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Detecting Brittle Decisions for Free: Leveraging Margin Consistency in Deep Robust Classifiers はコメントを受け付けていません

NPLMV-PS: Neural Point-Light Multi-View Photometric Stereo

要約 この研究では、新しいマルチビューフォトメトリックステレオ (MVPS) 方 … 続きを読む

カテゴリー: cs.CV | NPLMV-PS: Neural Point-Light Multi-View Photometric Stereo はコメントを受け付けていません

Towards Latent Masked Image Modeling for Self-Supervised Visual Representation Learning

要約 マスク イメージ モデリング (MIM) は、画像のマスクされた部分から欠 … 続きを読む

カテゴリー: cs.AI, cs.CV | Towards Latent Masked Image Modeling for Self-Supervised Visual Representation Learning はコメントを受け付けていません

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity

要約 Vision Large Language Model (VLLM) のパ … 続きを読む

カテゴリー: cs.CV | MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity はコメントを受け付けていません

SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models

要約 私たちは、一般的に使用される LLM のトークン バジェットを超えることな … 続きを読む

カテゴリー: cs.CV | SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models はコメントを受け付けていません

Artist: Aesthetically Controllable Text-Driven Stylization without Training

要約 拡散モデルはノイズ除去プロセス中にコンテンツとスタイルの生成に絡み合い、ス … 続きを読む

カテゴリー: cs.CV, cs.GR | Artist: Aesthetically Controllable Text-Driven Stylization without Training はコメントを受け付けていません

HandDGP: Camera-Space Hand Mesh Prediction with Differentiable Global Positioning

要約 単一の RGB 画像からカメラ空間のハンド メッシュを予測することは、3D … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | HandDGP: Camera-Space Hand Mesh Prediction with Differentiable Global Positioning はコメントを受け付けていません

CarFormer: Self-Driving with Learned Object-Centric Representations

要約 自動運転では表現の選択が重要な役割を果たします。 近年、Bird&#821 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | CarFormer: Self-Driving with Learned Object-Centric Representations はコメントを受け付けていません