要約
超高解像度 (UHR) 画像のセグメント化は、多くのアプリケーションで重要なタスクですが、高い空間解像度と豊富な詳細により、大きな課題が生じます。
最近のアプローチではデュアル ブランチ アーキテクチャが採用されており、グローバル ブランチが長距離のコンテキスト情報を学習し、ローカル ブランチが詳細をキャプチャします。
ただし、グローバル情報とローカル情報の間の矛盾に対処するのに苦労しており、計算コストが大幅に追加されます。
細かい詳細を持つ重要な領域に迅速に注意を向け、無関係な情報を除外する人間の視覚システムの能力に触発され、境界強化パッチマージトランスフォーマー (BPT) と呼ばれる新しい UHR セグメンテーション手法を提案します。
BPT は 2 つの主要なコンポーネントで構成されます。(1) トークンを情報領域に動的に割り当ててグローバル表現とローカル表現を取得するパッチマージング トランスフォーマー (PMT)、および (2) 境界情報を利用して詳細を強化する境界拡張モジュール (BEM)
。
複数の UHR 画像セグメンテーション ベンチマークに関する広範な実験により、当社の BPT が余分な計算オーバーヘッドを導入することなく、以前の最先端の方法よりも優れたパフォーマンスを発揮することが実証されました。
研究を容易にするためにコードが公開されます。
要約(オリジナル)
Segmentation of ultra-high resolution (UHR) images is a critical task with numerous applications, yet it poses significant challenges due to high spatial resolution and rich fine details. Recent approaches adopt a dual-branch architecture, where a global branch learns long-range contextual information and a local branch captures fine details. However, they struggle to handle the conflict between global and local information while adding significant extra computational cost. Inspired by the human visual system’s ability to rapidly orient attention to important areas with fine details and filter out irrelevant information, we propose a novel UHR segmentation method called Boundary-enhanced Patch-merging Transformer (BPT). BPT consists of two key components: (1) Patch-Merging Transformer (PMT) for dynamically allocating tokens to informative regions to acquire global and local representations, and (2) Boundary-Enhanced Module (BEM) that leverages boundary information to enrich fine details. Extensive experiments on multiple UHR image segmentation benchmarks demonstrate that our BPT outperforms previous state-of-the-art methods without introducing extra computational overhead. Codes will be released to facilitate research.
arxiv情報
著者 | Haopeng Sun |
発行日 | 2024-12-13 14:53:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google