月別アーカイブ: 2025年1月

Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models

投稿日: 2025年1月15日作成者: jarxiv

要約高解像度拡散モデルを加速するための新しいオートエンコーダーモデルファミ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Towards an End-to-End (E2E) Adversarial Learning and Application in the Physical World

投稿日: 2025年1月15日作成者: jarxiv

要約パッチベースの敵対的攻撃の従来の学習プロセスは、デジタルドメインで実行さ … 続きを読む →

カテゴリー: cs.CR, cs.CV | コメントを受け付けていません

AI Driven Water Segmentation with deep learning models for Enhanced Flood Monitoring

投稿日: 2025年1月15日作成者: jarxiv

要約洪水は毎年重大な死者と経済的損失を引き起こす主要な自然災害であり、気候変動 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | コメントを受け付けていません

FaVoR: Features via Voxel Rendering for Camera Relocalization

投稿日: 2025年1月15日作成者: jarxiv

要約カメラの再位置推定方法は、密な画像の位置合わせからクエリ画像からの直接的な … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

RMem: Restricted Memory Banks Improve Video Object Segmentation

投稿日: 2025年1月15日作成者: jarxiv

要約最近のビデオオブジェクトセグメンテーション (VOS) ベンチマークが … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

SmartEraser: Remove Anything from Images using Masked-Region Guidance

投稿日: 2025年1月15日作成者: jarxiv

要約これまで、オブジェクトの削除はマスクと修復のパラダイムが主流でした。このパ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding

投稿日: 2025年1月15日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、有望な結 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Can Bayesian Neural Networks Explicitly Model Input Uncertainty?

投稿日: 2025年1月15日作成者: jarxiv

要約機械学習モデルへの入力には、関連するノイズや不確実性が含まれる場合がありま … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

VINGS-Mono: Visual-Inertial Gaussian Splatting Monocular SLAM in Large Scenes

投稿日: 2025年1月15日作成者: jarxiv

要約 VINGS-Mono は、大規模なシーン向けに設計された単眼 (慣性) ガ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

A Multi-Modal Approach for Face Anti-Spoofing in Non-Calibrated Systems using Disparity Maps

投稿日: 2025年1月15日作成者: jarxiv

要約顔認識技術はさまざまなアプリケーションでますます使用されていますが、顔のな … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年1月

Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models

Towards an End-to-End (E2E) Adversarial Learning and Application in the Physical World

AI Driven Water Segmentation with deep learning models for Enhanced Flood Monitoring

FaVoR: Features via Voxel Rendering for Camera Relocalization

RMem: Restricted Memory Banks Improve Video Object Segmentation

SmartEraser: Remove Anything from Images using Masked-Region Guidance

LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding

Can Bayesian Neural Networks Explicitly Model Input Uncertainty?

VINGS-Mono: Visual-Inertial Gaussian Splatting Monocular SLAM in Large Scenes

A Multi-Modal Approach for Face Anti-Spoofing in Non-Calibrated Systems using Disparity Maps

最近の投稿

最近のコメント

アーカイブ

カテゴリー