cs.CV」カテゴリーアーカイブ

Selective Structured State Space for Multispectral-fused Small Target Detection

要約 高解像度のリモートセンシング画像でのターゲット検出は、小さなターゲットの認 … 続きを読む

カテゴリー: cs.CV | Selective Structured State Space for Multispectral-fused Small Target Detection はコメントを受け付けていません

Building Floor Number Estimation from Crowdsourced Street-Level Images: Munich Dataset and Baseline Method

要約 建物の床の数、または地上階の階建てに関する正確な情報は、世帯の推定、公益事 … 続きを読む

カテゴリー: cs.CV | Building Floor Number Estimation from Crowdsourced Street-Level Images: Munich Dataset and Baseline Method はコメントを受け付けていません

RemoteSAM: Towards Segment Anything for Earth Observation

要約 私たちは、地球観測のための堅牢で柔軟な視覚基盤モデルを開発することを目指し … 続きを読む

カテゴリー: cs.CV | RemoteSAM: Towards Segment Anything for Earth Observation はコメントを受け付けていません

A Wavelet-based Stereo Matching Framework for Solving Frequency Convergence Inconsistency

要約 Raft-stereoのEPE評価メトリックは、低周波数領域と高周波領域で … 続きを読む

カテゴリー: cs.CV | A Wavelet-based Stereo Matching Framework for Solving Frequency Convergence Inconsistency はコメントを受け付けていません

3D Face Reconstruction Error Decomposed: A Modular Benchmark for Fair and Fast Method Evaluation

要約 3Dフェイス再構成の標準ベンチマークメトリック、すなわち幾何学的エラーの計 … 続きを読む

カテゴリー: cs.CV | 3D Face Reconstruction Error Decomposed: A Modular Benchmark for Fair and Fast Method Evaluation はコメントを受け付けていません

Knot So Simple: A Minimalistic Environment for Spatial Reasoning

要約 複雑で空間的な推論と操作のためのインタラクティブな環境であるKnotgym … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Knot So Simple: A Minimalistic Environment for Spatial Reasoning はコメントを受け付けていません

Mahalanobis++: Improving OOD Detection via Feature Normalization

要約 分散分布(OOD)の検出例は、安全性クリティアルアプリケーションに信頼でき … 続きを読む

カテゴリー: cs.CV, cs.LG | Mahalanobis++: Improving OOD Detection via Feature Normalization はコメントを受け付けていません

CAMME: Adaptive Deepfake Image Detection with Multi-Modal Cross-Attention

要約 洗練されたAIに生成されたディープフェイクの急増は、デジタルメディア認証と … 続きを読む

カテゴリー: cs.CV, F.2.2 | CAMME: Adaptive Deepfake Image Detection with Multi-Modal Cross-Attention はコメントを受け付けていません

RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs

要約 GPT-4O、Gemini、およびO3によって例示されたネイティブマルチモ … 続きを読む

カテゴリー: cs.CV | RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs はコメントを受け付けていません

Clip4Retrofit: Enabling Real-Time Image Labeling on Edge Devices via Cross-Architecture CLIP Distillation

要約 Clip(Contrastive Language-Image Pretr … 続きを読む

カテゴリー: cs.CV | Clip4Retrofit: Enabling Real-Time Image Labeling on Edge Devices via Cross-Architecture CLIP Distillation はコメントを受け付けていません