投稿者「jarxiv」のアーカイブ

Scaling White-Box Transformers for Vision

要約 CRATE は、圧縮表現とスパース表現を学習するために設計されたホワイトボ … 続きを読む

カテゴリー: cs.CV | コメントする

Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models

要約 高解像度拡散モデルを加速するための新しいオートエンコーダー モデル ファミ … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

Towards an End-to-End (E2E) Adversarial Learning and Application in the Physical World

要約 パッチベースの敵対的攻撃の従来の学習プロセスは、デジタル ドメインで実行さ … 続きを読む

カテゴリー: cs.CR, cs.CV | コメントする

AI Driven Water Segmentation with deep learning models for Enhanced Flood Monitoring

要約 洪水は毎年重大な死者と経済的損失を引き起こす主要な自然災害であり、気候変動 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | コメントする

FaVoR: Features via Voxel Rendering for Camera Relocalization

要約 カメラの再位置推定方法は、密な画像の位置合わせからクエリ画像からの直接的な … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする

RMem: Restricted Memory Banks Improve Video Object Segmentation

要約 最近のビデオ オブジェクト セグメンテーション (VOS) ベンチマークが … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

SmartEraser: Remove Anything from Images using Masked-Region Guidance

要約 これまで、オブジェクトの削除はマスクと修復のパラダイムが主流でした。このパ … 続きを読む

カテゴリー: cs.CV | コメントする

LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding

要約 マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、有望な結 … 続きを読む

カテゴリー: cs.CV | コメントする

Can Bayesian Neural Networks Explicitly Model Input Uncertainty?

要約 機械学習モデルへの入力には、関連するノイズや不確実性が含まれる場合がありま … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする

VINGS-Mono: Visual-Inertial Gaussian Splatting Monocular SLAM in Large Scenes

要約 VINGS-Mono は、大規模なシーン向けに設計された単眼 (慣性) ガ … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする