cs.CV」カテゴリーアーカイブ

A Sociotechnical Lens for Evaluating Computer Vision Models: A Case Study on Detecting and Reasoning about Gender and Emotion

要約 コンピューター ビジョン (CV) テクノロジーの進化の状況において、画像 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.CY, cs.HC | A Sociotechnical Lens for Evaluating Computer Vision Models: A Case Study on Detecting and Reasoning about Gender and Emotion はコメントを受け付けていません

Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation

要約 既存のフィードフォワード画像から 3D への手法は、主に 2D マルチビュ … 続きを読む

カテゴリー: cs.CV, cs.GR | Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation はコメントを受け付けていません

Enhancing Diagnostic Precision in Gastric Bleeding through Automated Lesion Segmentation: A Deep DuS-KFCM Approach

要約 内視鏡画像における胃出血のタイムリーかつ正確な分類とセグメント化は、胃合併 … 続きを読む

カテゴリー: cs.CV, eess.IV | Enhancing Diagnostic Precision in Gastric Bleeding through Automated Lesion Segmentation: A Deep DuS-KFCM Approach はコメントを受け付けていません

Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding

要約 マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、ビデオ理 … 続きを読む

カテゴリー: cs.CV, cs.LG | Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding はコメントを受け付けていません

Multimodal Autoregressive Pre-training of Large Vision Encoders

要約 大規模ビジョンエンコーダの事前トレーニングのための新しい方法を紹介します。 … 続きを読む

カテゴリー: cs.CV, cs.LG | Multimodal Autoregressive Pre-training of Large Vision Encoders はコメントを受け付けていません

Adversarial Poisoning Attack on Quantum Machine Learning Models

要約 量子機械学習 (QML) への関心が高まり、クラウド プロバイダーを通じて … 続きを読む

カテゴリー: cs.CR, cs.CV, quant-ph | Adversarial Poisoning Attack on Quantum Machine Learning Models はコメントを受け付けていません

Multimodal 3D Brain Tumor Segmentation with Adversarial Training and Conditional Random Field

要約 神経膠腫の構造の複雑さと大きな個体差により、脳腫瘍を正確にセグメンテーショ … 続きを読む

カテゴリー: 15-11, cs.CV, eess.IV, I.4.6 | Multimodal 3D Brain Tumor Segmentation with Adversarial Training and Conditional Random Field はコメントを受け付けていません

Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model

要約 マルチモーダル言語モデル (MLLM) は現実世界の環境でますます適用され … 続きを読む

カテゴリー: cs.CV, cs.LG | Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model はコメントを受け付けていません

Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation

要約 動的シーンのリアルなシミュレーションには、さまざまなマテリアル特性を正確に … 続きを読む

カテゴリー: cs.CV | Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation はコメントを受け付けていません

Revisiting the Integration of Convolution and Attention for Vision Backbone

要約 コンボリューション (Convs) とマルチヘッド セルフ アテンション … 続きを読む

カテゴリー: cs.AI, cs.CV | Revisiting the Integration of Convolution and Attention for Vision Backbone はコメントを受け付けていません