MR-EEGWaveNet: Multiresolutional EEGWaveNet for Seizure Detection from Long EEG Recordings

要約

一般化された発作検出モデルの機能エンジニアリングは、依然として大きな課題です。
最近提案されたモデルは、トレーニングデータに応じて可変性能を示し、アーティファクトを発作データと正確に区別するのに効果がありません。
この研究では、新しいエンドツーエンドモデル「「Multiregwavenet(Mr-Eegwavenet)」、「発作イベント」とバックグラウンドの脳波(EEG)とアーティファクト/ノイズを、異なる時間枠とチャネル間の空間的関係にわたって時間的依存関係の両方をキャプチャすることにより、発作イベントを効率的に区別することを提案します。
モデルには、畳み込み、特徴抽出、予測因子の3つのモジュールがあります。
畳み込みモジュールは、深さのように、時空間的畳み込みを通じて特徴を抽出します。
特徴抽出モジュールは、EEGセグメントとそのサブセグメントから抽出された特徴寸法を個別に削減します。
その後、抽出された特徴は、予測モジュールと呼ばれる完全に接続された分類器を使用して分類のために単一のベクトルに連結します。
さらに、モデルの偽陽性レートを減らすために、異常スコアベースの分類後処理処理手法が導入されました。
実験結果は、異なるパラメーター設定とデータセット(Siena(public)およびJundendo(private))を使用して報告および分析されました。
提案されたMr-Eeagwavenetは、従来の非混合解決策アプローチを大幅に上回り、Sienaで0.177から0.336から0.327から0.488にF1スコアを改善し、それぞれ15.9%と20.62%の精度の向上を挙げました。

要約(オリジナル)

Feature engineering for generalized seizure detection models remains a significant challenge. Recently proposed models show variable performance depending on the training data and remain ineffective at accurately distinguishing artifacts from seizure data. In this study, we propose a novel end-to-end model, ”Multiresolutional EEGWaveNet (MR-EEGWaveNet),” which efficiently distinguishes seizure events from background electroencephalogram (EEG) and artifacts/noise by capturing both temporal dependencies across different time frames and spatial relationships between channels. The model has three modules: convolution, feature extraction, and predictor. The convolution module extracts features through depth-wise and spatio-temporal convolution. The feature extraction module individually reduces the feature dimension extracted from EEG segments and their sub-segments. Subsequently, the extracted features are concatenated into a single vector for classification using a fully connected classifier called the predictor module. In addition, an anomaly score-based post-classification processing technique was introduced to reduce the false-positive rates of the model. Experimental results were reported and analyzed using different parameter settings and datasets (Siena (public) and Juntendo (private)). The proposed MR-EEGWaveNet significantly outperformed the conventional non-multiresolution approach, improving the F1 scores from 0.177 to 0.336 on Siena and 0.327 to 0.488 on Juntendo, with precision gains of 15.9% and 20.62%, respectively.

arxiv情報

著者 Kazi Mahmudul Hassan,Xuyang Zhao,Hidenori Sugano,Toshihisa Tanaka
発行日 2025-05-23 14:40:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | MR-EEGWaveNet: Multiresolutional EEGWaveNet for Seizure Detection from Long EEG Recordings はコメントを受け付けていません

To Glue or Not to Glue? Classical vs Learned Image Matching for Mobile Mapping Cameras to Textured Semantic 3D Building Models

要約

機能マッチングは、画像登録、モーションからの構造、視覚的ローカリゼーションなど、多くのコンピュータービジョンおよび写真測量アプリケーションに必要なステップです。
SIFTの特徴の検出と説明などの古典的な手作りの方法と、最近傍マッチングとRansacの外れ値除去と組み合わせたメソッドは、モバイルマッピングカメラの最先端です。
深い学習の最近の進歩により、学習可能な方法が導入され、複雑な条件下でより良い堅牢性とパフォーマンスがあることが証明されています。
採用の拡大にもかかわらず、セマンティック3Dビルディングカメラからモデルへのマッチングの特定のタスクのためのクラシックと学習可能な機能マッチング方法の包括的な比較はまだありません。
この提出物は、テクスチャのCityGML LOD2モデルを使用した視覚的ローカリゼーションにおけるさまざまな機能マッチング手法の有効性を体系的に評価します。
標準のベンチマークデータセット(HPATCHES、MEGADEPTH-1500)と、ファサードテクスチャと対応するカメラ画像(陸生およびドローン)で構成されるカスタムデータセットを使用します。
後者については、幾何学的な地上真理が地理参照された軌道データから導出された幾何学的なグラウンド・トゥルースを使用して、Perspective-n-point(PNP)アルゴリズムを使用して推定される絶対ポーズの達成可能な精度を評価します。
結果は、学習可能な機能マッチング方法が、ゼロから12のランサックインリア、および曲線下のゼロから0.16の面積を備えた挑戦的なカスタムデータセットの精度と堅牢性に関する従来のアプローチを大きく上回ることを示しています。
この作業は、モデルベースの視覚的ローカリゼーション方法の開発を促進すると考えています。
コードへのリンク:https://github.com/simbauer/to\_glue\_or\_not\_to\_glue

要約(オリジナル)

Feature matching is a necessary step for many computer vision and photogrammetry applications such as image registration, structure-from-motion, and visual localization. Classical handcrafted methods such as SIFT feature detection and description combined with nearest neighbour matching and RANSAC outlier removal have been state-of-the-art for mobile mapping cameras. With recent advances in deep learning, learnable methods have been introduced and proven to have better robustness and performance under complex conditions. Despite their growing adoption, a comprehensive comparison between classical and learnable feature matching methods for the specific task of semantic 3D building camera-to-model matching is still missing. This submission systematically evaluates the effectiveness of different feature-matching techniques in visual localization using textured CityGML LoD2 models. We use standard benchmark datasets (HPatches, MegaDepth-1500) and custom datasets consisting of facade textures and corresponding camera images (terrestrial and drone). For the latter, we evaluate the achievable accuracy of the absolute pose estimated using a Perspective-n-Point (PnP) algorithm, with geometric ground truth derived from geo-referenced trajectory data. The results indicate that the learnable feature matching methods vastly outperform traditional approaches regarding accuracy and robustness on our challenging custom datasets with zero to 12 RANSAC-inliers and zero to 0.16 area under the curve. We believe that this work will foster the development of model-based visual localization methods. Link to the code: https://github.com/simBauer/To\_Glue\_or\_not\_to\_Glue

arxiv情報

著者 Simone Gaisbauer,Prabin Gyawali,Qilin Zhang,Olaf Wysocki,Boris Jutzi
発行日 2025-05-23 14:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | To Glue or Not to Glue? Classical vs Learned Image Matching for Mobile Mapping Cameras to Textured Semantic 3D Building Models はコメントを受け付けていません

Few-Shot Learning from Gigapixel Images via Hierarchical Vision-Language Alignment and Modeling

要約

ビジョン言語モデル(VLM)は最近、複数のインスタンス学習(MIL)フレームワークに統合され、スライド画像全体の少数の監視された分類(WSI)の課題に対処しました。
重要な傾向は、階層組織構造をよりよく表すためにマルチスケール情報を活用することです。
ただし、既存の方法は、多くの場合、2つの重要な制限に直面しています。(1)スケール全体の同じモダリティ内での相互作用のモデリングが不十分(5xおよび20x)、(2)同じスケールでの視覚モダリティとテキストモダリティの間の不十分なアラインメント。
これらのギャップに対処するために、階層的な関係をキャプチャするために、粗い(5x)と微細な(20x)視覚/テキストノードの間の親子リンクからなる統合グラフを構築する階層的な視覚視点フレームワークであるHive-Milを提案します。
セマンティックの一貫性をさらに強化するために、Hive-Milには、弱い相関パッチテキストペアを除去する2段階のテキスト誘導動的フィルタリングメカニズムが組み込まれ、階層的なセマンティクスをスケール間で整列させる階層対照損失を導入します。
TCGA乳房、肺がん、腎臓がんのデータセットに関する広範な実験は、Hive-MILが従来のMILと最近のVLMベースのMILアプローチの両方を一貫して上回り、16ショットの設定でマクロF1で最大4.1%の利益を達成することを示しています。
我々の結果は、限られた病理データから効率的でスケーラブルな学習のための階層構造とマルチモーダルアラインメントの共同モデリングの価値を示しています。
このコードは、https://github.com/bryanwong17/hive-milで入手できます

要約(オリジナル)

Vision-language models (VLMs) have recently been integrated into multiple instance learning (MIL) frameworks to address the challenge of few-shot, weakly supervised classification of whole slide images (WSIs). A key trend involves leveraging multi-scale information to better represent hierarchical tissue structures. However, existing methods often face two key limitations: (1) insufficient modeling of interactions within the same modalities across scales (e.g., 5x and 20x) and (2) inadequate alignment between visual and textual modalities on the same scale. To address these gaps, we propose HiVE-MIL, a hierarchical vision-language framework that constructs a unified graph consisting of (1) parent-child links between coarse (5x) and fine (20x) visual/textual nodes to capture hierarchical relationships, and (2) heterogeneous intra-scale edges linking visual and textual nodes on the same scale. To further enhance semantic consistency, HiVE-MIL incorporates a two-stage, text-guided dynamic filtering mechanism that removes weakly correlated patch-text pairs, and introduces a hierarchical contrastive loss to align textual semantics across scales. Extensive experiments on TCGA breast, lung, and kidney cancer datasets demonstrate that HiVE-MIL consistently outperforms both traditional MIL and recent VLM-based MIL approaches, achieving gains of up to 4.1% in macro F1 under 16-shot settings. Our results demonstrate the value of jointly modeling hierarchical structure and multimodal alignment for efficient and scalable learning from limited pathology data. The code is available at https://github.com/bryanwong17/HiVE-MIL

arxiv情報

著者 Bryan Wong,Jong Woo Kim,Huazhu Fu,Mun Yong Yi
発行日 2025-05-23 14:48:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Few-Shot Learning from Gigapixel Images via Hierarchical Vision-Language Alignment and Modeling はコメントを受け付けていません

Canonical Pose Reconstruction from Single Depth Image for 3D Non-rigid Pose Recovery on Limited Datasets

要約

2D入力からの3D再構成、特に人間のような非剛性オブジェクトの場合、変形の有意な範囲があるため、独自の課題を提示します。
従来の方法はしばしば、変形空間全体をカバーするために広範なトレーニングデータを必要とする非剛性の形状と格闘しています。
この研究では、変形可能な形状の単一ビュー深度画像を標準形式に変換する標準的なポーズ再構成モデ​​ルを提案することにより、これらの制限に対処します。
このアラインメントは、リジッドオブジェクトの再構成技術の適用を可能にすることにより形状再構成を促進し、元の深さ画像と変形した深さ画像の両方を使用して、再構成タスクの一部としてボクセル表現の入力ポーズの回復をサポートします。
特に、私たちのモデルは、約300のサンプルの小さなデータセットのみで効果的な結果を達成します。
動物および人間のデータセットでの実験結果は、私たちのモデルが他の最先端の方法よりも優れていることを示しています。

要約(オリジナル)

3D reconstruction from 2D inputs, especially for non-rigid objects like humans, presents unique challenges due to the significant range of possible deformations. Traditional methods often struggle with non-rigid shapes, which require extensive training data to cover the entire deformation space. This study addresses these limitations by proposing a canonical pose reconstruction model that transforms single-view depth images of deformable shapes into a canonical form. This alignment facilitates shape reconstruction by enabling the application of rigid object reconstruction techniques, and supports recovering the input pose in voxel representation as part of the reconstruction task, utilizing both the original and deformed depth images. Notably, our model achieves effective results with only a small dataset of approximately 300 samples. Experimental results on animal and human datasets demonstrate that our model outperforms other state-of-the-art methods.

arxiv情報

著者 Fahd Alhamazani,Yu-Kun Lai,Paul L. Rosin
発行日 2025-05-23 14:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Canonical Pose Reconstruction from Single Depth Image for 3D Non-rigid Pose Recovery on Limited Datasets はコメントを受け付けていません

Segment Anyword: Mask Prompt Inversion for Open-Set Grounded Segmentation

要約

オープンセットの画像セグメンテーションは、既存の方法が広範なトレーニングまたは微調整を必要とすることが多く、一般的に多様なテキスト参照式全体で統一オブジェクトを一貫してセグメント化するのに苦労するため、重要な課題を提起します。
これにより動機付けられて、セグメントAnyWordを提案します。これは、凍結した拡散モデルからのトークンレベルのクロスアテナテンションマップに依存するオープンセット言語の接地セグメンテーションのための新しいトレーニングフリーの視覚概念プロンプト学習アプローチであり、セグメンテーションサロゲートまたはマスクプロンプトを生成し、ターゲットオブジェクトマスクに改良されます。
初期プロンプトは通常、画像テキストの複雑さが増加するにつれて一貫性と一貫性を欠いており、最適ではないマスクフラグメントをもたらします。
この問題に取り組むために、文の依存と構文構造情報に基づいて視覚的なプロンプトを結合およびクラスターする新しい言語誘導視覚プロンプトの正規化をさらに導入し、堅牢でノイズ耐性マスクプロンプトの抽出、およびセグメンテーション精度の大幅な改善を可能にします。
提案されたアプローチは効果的であり、さまざまなオープンセットセグメンテーションタスクにわたって一般化され、パスカルコンテキスト59、67.73(+25.73相対)CIOUで52.5(+6.8相対)MIOUの最先端の結果を達成します。
分野。

要約(オリジナル)

Open-set image segmentation poses a significant challenge because existing methods often demand extensive training or fine-tuning and generally struggle to segment unified objects consistently across diverse text reference expressions. Motivated by this, we propose Segment Anyword, a novel training-free visual concept prompt learning approach for open-set language grounded segmentation that relies on token-level cross-attention maps from a frozen diffusion model to produce segmentation surrogates or mask prompts, which are then refined into targeted object masks. Initial prompts typically lack coherence and consistency as the complexity of the image-text increases, resulting in suboptimal mask fragments. To tackle this issue, we further introduce a novel linguistic-guided visual prompt regularization that binds and clusters visual prompts based on sentence dependency and syntactic structural information, enabling the extraction of robust, noise-tolerant mask prompts, and significant improvements in segmentation accuracy. The proposed approach is effective, generalizes across different open-set segmentation tasks, and achieves state-of-the-art results of 52.5 (+6.8 relative) mIoU on Pascal Context 59, 67.73 (+25.73 relative) cIoU on gRefCOCO, and 67.4 (+1.1 relative to fine-tuned methods) mIoU on GranDf, which is the most complex open-set grounded segmentation task in the field.

arxiv情報

著者 Zhihua Liu,Amrutha Saseendran,Lei Tong,Xilin He,Fariba Yousefi,Nikolay Burlutskiy,Dino Oglic,Tom Diethe,Philip Teare,Huiyu Zhou,Chen Jin
発行日 2025-05-23 14:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Segment Anyword: Mask Prompt Inversion for Open-Set Grounded Segmentation はコメントを受け付けていません

Clinical Validation of Deep Learning for Real-Time Tissue Oxygenation Estimation Using Spectral Imaging

要約

組織虚血の正確でリアルタイムの監視は、組織の健康とガイド手術を理解するために重要です。
スペクトルイメージングは​​、組織酸素化の非接触および術中モニタリングの大きな可能性を示しています。
直接参照の酸素化値を取得するのが難しいため、従来の方法は線形解除技術に基づいています。
これらは仮定を起こしやすく、これらの線形関係は必ずしも実際に保持されるとは限りません。
この作業では、モンテカルロシミュレーションスペクトルを使用して、リアルタイム組織酸素化推定のための深い学習アプローチを提示します。
このタスクのために、完全に接続されたニューラルネットワーク(FCN)と畳み込みニューラルネットワーク(CNN)をトレーニングし、シミュレートされた臨床スペクトルデータと実際の臨床スペクトルデータのギャップを埋めるためにドメイン副業トレーニングアプローチを提案します。
結果は、これらの深い学習モデルが、従来の線形解除と比較して、手術中のスペクトルイメージング中に得られた低酸素症のよく知られているマーカーである毛細血管乳酸測定とより高い相関を達成することを示しています。
特に、ドメインと副業のトレーニングにより、ドメインギャップが効果的に削減され、実際の臨床環境でのパフォーマンスが最適化されます。

要約(オリジナル)

Accurate, real-time monitoring of tissue ischemia is crucial to understand tissue health and guide surgery. Spectral imaging shows great potential for contactless and intraoperative monitoring of tissue oxygenation. Due to the difficulty of obtaining direct reference oxygenation values, conventional methods are based on linear unmixing techniques. These are prone to assumptions and these linear relations may not always hold in practice. In this work, we present deep learning approaches for real-time tissue oxygenation estimation using Monte-Carlo simulated spectra. We train a fully connected neural network (FCN) and a convolutional neural network (CNN) for this task and propose a domain-adversarial training approach to bridge the gap between simulated and real clinical spectral data. Results demonstrate that these deep learning models achieve a higher correlation with capillary lactate measurements, a well-known marker of hypoxia, obtained during spectral imaging in surgery, compared to traditional linear unmixing. Notably, domain-adversarial training effectively reduces the domain gap, optimizing performance in real clinical settings.

arxiv情報

著者 Jens De Winne,Siri Willems,Siri Luthman,Danilo Babin,Hiep Luong,Wim Ceelen
発行日 2025-05-23 15:14:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Clinical Validation of Deep Learning for Real-Time Tissue Oxygenation Estimation Using Spectral Imaging はコメントを受け付けていません

SemSegBench & DetecBench: Benchmarking Reliability and Generalization Beyond Classification

要約

深い学習における信頼性と一般化は、画像分類の文脈で主に研究されています。
しかし、安全性が批判的なドメインの現実世界のアプリケーションには、セマンティックセグメンテーションやオブジェクト検出などのより広範なセマンティックタスクセットが含まれます。これには、専用のモデルアーキテクチャの多様なセットが付属しています。
セグメンテーションと検出における堅牢なモデル設計に向けた研究を促進するために、私たちの主な目的は、分布シフトと敵対的操作に対する堅牢性に関するベンチマークツールを提供することです。
セマンティックセグメンテーションおよびオブジェクト検出モデルの信頼性と一般化に関するこれまでで最も広範な評価とともに、ベンチマークツールのSemsegbenchとDetecbenchを提案します。
特に、4つのデータセットと2つのデータセットにわたって61のオブジェクト検出器にわたって76のセグメンテーションモデルをベンチマークし、多様な敵対的攻撃と一般的な腐敗の下でのパフォーマンスを評価します。
私たちの調査結果は、最先端のモデルの体系的な弱点を明らかにし、アーキテクチャ、バックボーン、モデルの容量に基づいて重要な傾向を明らかにします。
SemsegbenchとDetecbenchは、GitHubリポジトリ(https://github.com/shashankskagnihotri/benchmarking_reliability_generalization)と合計6139の評価の完全なセットでオープンソースを受けています。
収集されたデータが、分類を超えてモデルの信頼性を改善するための将来の研究を促進し、奨励することを予想しています。

要約(オリジナル)

Reliability and generalization in deep learning are predominantly studied in the context of image classification. Yet, real-world applications in safety-critical domains involve a broader set of semantic tasks, such as semantic segmentation and object detection, which come with a diverse set of dedicated model architectures. To facilitate research towards robust model design in segmentation and detection, our primary objective is to provide benchmarking tools regarding robustness to distribution shifts and adversarial manipulations. We propose the benchmarking tools SEMSEGBENCH and DETECBENCH, along with the most extensive evaluation to date on the reliability and generalization of semantic segmentation and object detection models. In particular, we benchmark 76 segmentation models across four datasets and 61 object detectors across two datasets, evaluating their performance under diverse adversarial attacks and common corruptions. Our findings reveal systematic weaknesses in state-of-the-art models and uncover key trends based on architecture, backbone, and model capacity. SEMSEGBENCH and DETECBENCH are open-sourced in our GitHub repository (https://github.com/shashankskagnihotri/benchmarking_reliability_generalization) along with our complete set of total 6139 evaluations. We anticipate the collected data to foster and encourage future research towards improved model reliability beyond classification.

arxiv情報

著者 Shashank Agnihotri,David Schader,Jonas Jakubassa,Nico Sharei,Simon Kral,Mehmet Ege Kaçar,Ruben Weber,Margret Keuper
発行日 2025-05-23 15:17:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | SemSegBench & DetecBench: Benchmarking Reliability and Generalization Beyond Classification はコメントを受け付けていません

Selective Structured State Space for Multispectral-fused Small Target Detection

要約

高解像度のリモートセンシング画像でのターゲット検出は、小さなターゲットの認識精度が低く、計算コストが高いため、課題に直面しています。
変圧器アーキテクチャの計算の複雑さは画像解像度とともに2次に増加しますが、畳み込みニューラルネットワーク(CNN)アーキテクチャは、より深い畳み込み層を積み重ねて受容フィールドを拡大し、計算需要の爆発的な成長につながります。
これらの計算上の制約に対処するために、Mambaの線形複雑さを効率化するために活用します。
ただし、主に小さなターゲットが画像内の限られた領域を占有し、セマンティック情報が限られているため、Mambaのパフォーマンスは小さなターゲットの低下です。
これらの小さなターゲットを正確に識別するには、Mambaのグローバルな注意能力だけでなく、地元の細部の正確なキャプチャも必要です。
この目的のために、拡張された小さなターゲット検出(ESTD)モジュールと畳み込み上の注意RESSIOM GATE(CARG)モジュールを開発することにより、MAMBAを強化します。
ESTDモジュールは地元の細部をキャプチャするためにローカルな注意を強化し、Mambaに基づいて構築されたCargモジュールは空間的およびチャネルごとの情報を強調し、小さなターゲットの特徴的な表現をキャプチャするモデルの能力を集合的に改善します。
さらに、小さなターゲットのセマンティック表現を強調するために、マルチスペクトル融合用のマスク強化ピクセルレベルの融合(MEPF)モジュールを設計します。

要約(オリジナル)

Target detection in high-resolution remote sensing imagery faces challenges due to the low recognition accuracy of small targets and high computational costs. The computational complexity of the Transformer architecture increases quadratically with image resolution, while Convolutional Neural Networks (CNN) architectures are forced to stack deeper convolutional layers to expand their receptive fields, leading to an explosive growth in computational demands. To address these computational constraints, we leverage Mamba’s linear complexity for efficiency. However, Mamba’s performance declines for small targets, primarily because small targets occupy a limited area in the image and have limited semantic information. Accurate identification of these small targets necessitates not only Mamba’s global attention capabilities but also the precise capture of fine local details. To this end, we enhance Mamba by developing the Enhanced Small Target Detection (ESTD) module and the Convolutional Attention Residual Gate (CARG) module. The ESTD module bolsters local attention to capture fine-grained details, while the CARG module, built upon Mamba, emphasizes spatial and channel-wise information, collectively improving the model’s ability to capture distinctive representations of small targets. Additionally, to highlight the semantic representation of small targets, we design a Mask Enhanced Pixel-level Fusion (MEPF) module for multispectral fusion, which enhances target features by effectively fusing visible and infrared multimodal information.

arxiv情報

著者 Qianqian Zhang,WeiJun Wang,Yunxing Liu,Li Zhou,Hao Zhao,Junshe An,Zihan Wang
発行日 2025-05-23 15:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Selective Structured State Space for Multispectral-fused Small Target Detection はコメントを受け付けていません

Building Floor Number Estimation from Crowdsourced Street-Level Images: Munich Dataset and Baseline Method

要約

建物の床の数、または地上階の階建てに関する正確な情報は、世帯の推定、公益事業の提供、リスク評価、避難計画、エネルギーモデリングに不可欠です。
しかし、大規模なフロアカウントデータは、Cadastralおよび3D Cityデータベースではめったに利用できません。
この研究では、無制限のクラウドソーシングされたストリートレベルの画像から床数を直接エンドするエンドツーエンドの深い学習フレームワークを提案し、手作りの機能を避け、多様なファサードスタイル全体に一般化します。
ベンチマークを有効にするために、Munich Building Floor Datasetをリリースします。これは、Mapillaryとターゲットのフィールド写真から収集された6800を超えるジオタグ付き画像の公開セットで、それぞれが検証済みの階のラベルと組み合わされています。
このデータセットでは、提案された分類回​​帰ネットワークは81.2%の正確性を達成し、+/- 1フロア内の建物の97.9%を予測します。
この方法とデータセットは、垂直情報を備えた3Dシティモデルを豊かにするためのスケーラブルなルートを提供し、都市の情報学、リモートセンシング、地理情報科学の将来の作業の基盤を築きます。
ソースコードとデータは、https://github.com/ya0-sun/munich-svi-floorベンチマークのオープンライセンスでリリースされます。

要約(オリジナル)

Accurate information on the number of building floors, or above-ground storeys, is essential for household estimation, utility provision, risk assessment, evacuation planning, and energy modeling. Yet large-scale floor-count data are rarely available in cadastral and 3D city databases. This study proposes an end-to-end deep learning framework that infers floor numbers directly from unrestricted, crowdsourced street-level imagery, avoiding hand-crafted features and generalizing across diverse facade styles. To enable benchmarking, we release the Munich Building Floor Dataset, a public set of over 6800 geo-tagged images collected from Mapillary and targeted field photography, each paired with a verified storey label. On this dataset, the proposed classification-regression network attains 81.2% exact accuracy and predicts 97.9% of buildings within +/-1 floor. The method and dataset together offer a scalable route to enrich 3D city models with vertical information and lay a foundation for future work in urban informatics, remote sensing, and geographic information science. Source code and data will be released under an open license at https://github.com/ya0-sun/Munich-SVI-Floor-Benchmark.

arxiv情報

著者 Yao Sun,Sining Chen,Yifan Tian,Xiao Xiang Zhu
発行日 2025-05-23 15:27:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Building Floor Number Estimation from Crowdsourced Street-Level Images: Munich Dataset and Baseline Method はコメントを受け付けていません

RemoteSAM: Towards Segment Anything for Earth Observation

要約

私たちは、地球観測のための堅牢で柔軟な視覚基盤モデルを開発することを目指しています。
さまざまなタスクシナリオで必要なさまざまな入出力インターフェイスとの互換性を提供しながら、多様な視覚ターゲットを認識してローカライズする上で強力な機能を備えている必要があります。
現在のシステムは、これらの要件を満たすことはできません。通常、セマンティックカバレッジが限られている狭いデータドメインでトレーニングされたタスク固有のアーキテクチャを利用するからです。
私たちの研究では、これらの制限は、データとモデリングの2つの側面からです。
最初に、以前の人間の注釈やルールベースのアプローチと比較して、非常に優れたスケーラビリティを享受する自動データエンジンを導入します。
これにより、この種の最大のデータセットを作成することができました。これは、前例のない範囲の多様なセマンティックカテゴリと属性仕様をカバーする270kの画像テキストマスクトリプレットで構成されています。
このデータファンデーションに基づいて、式のセグメンテーションを参照することを中心とするタスク統合パラダイムをさらに提案します。
タスク固有のヘッドのない単一のモデルを使用して、分類、検出、セグメンテーション、接地など、視力中心の幅広い知覚タスクを効果的に処理します。
データとモデリングに関するこれらの革新を組み合わせることで、いくつかの地球観測知覚ベンチマークに新しいSOTAを確立する基礎モデルであるRemotesamを提示し、Falcon、Geochat、LHRS-Botなどの他の基礎モデルを優れた効率を高めます。
モデルとデータは、https://github.com/1e12leon/remotesamで公開されています。

要約(オリジナル)

We aim to develop a robust yet flexible visual foundation model for Earth observation. It should possess strong capabilities in recognizing and localizing diverse visual targets while providing compatibility with various input-output interfaces required across different task scenarios. Current systems cannot meet these requirements, as they typically utilize task-specific architecture trained on narrow data domains with limited semantic coverage. Our study addresses these limitations from two aspects: data and modeling. We first introduce an automatic data engine that enjoys significantly better scalability compared to previous human annotation or rule-based approaches. It has enabled us to create the largest dataset of its kind to date, comprising 270K image-text-mask triplets covering an unprecedented range of diverse semantic categories and attribute specifications. Based on this data foundation, we further propose a task unification paradigm that centers around referring expression segmentation. It effectively handles a wide range of vision-centric perception tasks, including classification, detection, segmentation, grounding, etc, using a single model without any task-specific heads. Combining these innovations on data and modeling, we present RemoteSAM, a foundation model that establishes new SoTA on several earth observation perception benchmarks, outperforming other foundation models such as Falcon, GeoChat, and LHRS-Bot with significantly higher efficiency. Models and data are publicly available at https://github.com/1e12Leon/RemoteSAM.

arxiv情報

著者 Liang Yao,Fan Liu,Delong Chen,Chuanyi Zhang,Yijun Wang,Ziyun Chen,Wei Xu,Shimin Di,Yuhui Zheng
発行日 2025-05-23 15:27:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RemoteSAM: Towards Segment Anything for Earth Observation はコメントを受け付けていません