Unsupervised semantic segmentation of high-resolution UAV imagery for road scene parsing

要約

UAV画像の道路シーンを解析する際には、2つの課題がある。第一に、UAV画像の解像度が高いため処理が難しい。第二に、教師ありディープラーニング手法では、ロバストで正確なモデルを学習するために大量の手動アノテーションが必要となる。本論文では、ビジョン言語モデルの最近の進歩とコンピュータビジョンの基礎モデルを活用した教師なし道路構文解析フレームワークを紹介する。最初に、超大解像度のUAV画像を効率的に処理するためにビジョン言語モデルを採用し、画像内の道路関心領域を迅速に検出する。続いて、視覚言語モデルSAMを利用して、カテゴリ情報のない道路領域のマスクを生成する。続いて、自己教師付き表現学習ネットワークが、マスクされた全ての領域から特徴表現を抽出する。最後に、教師なしクラスタリングアルゴリズムを適用して、これらの特徴表現をクラスタリングし、各クラスタにIDを割り当てる。マスクされた領域は対応するIDと組み合わされ、初期擬似ラベルを生成し、通常のセマンティックセグメンテーションのための反復自己学習プロセスを開始する。提案手法は、手動アノテーションに頼ることなく、開発データセットにおいて89.96%という驚異的なmIoUを達成した。特に注目すべきは、提案手法の並外れた柔軟性であり、人間が定義したカテゴリの限界を超え、データセット自体から新しいカテゴリの知識を獲得することさえ可能である。

要約(オリジナル)

Two challenges are presented when parsing road scenes in UAV images. First, the high resolution of UAV images makes processing difficult. Second, supervised deep learning methods require a large amount of manual annotations to train robust and accurate models. In this paper, an unsupervised road parsing framework that leverages recent advances in vision language models and fundamental computer vision model is introduced.Initially, a vision language model is employed to efficiently process ultra-large resolution UAV images to quickly detect road regions of interest in the images. Subsequently, the vision foundation model SAM is utilized to generate masks for the road regions without category information. Following that, a self-supervised representation learning network extracts feature representations from all masked regions. Finally, an unsupervised clustering algorithm is applied to cluster these feature representations and assign IDs to each cluster. The masked regions are combined with the corresponding IDs to generate initial pseudo-labels, which initiate an iterative self-training process for regular semantic segmentation. The proposed method achieves an impressive 89.96% mIoU on the development dataset without relying on any manual annotation. Particularly noteworthy is the extraordinary flexibility of the proposed method, which even goes beyond the limitations of human-defined categories and is able to acquire knowledge of new categories from the dataset itself.

arxiv情報

著者 Zihan Ma,Yongshang Li,Ronggui Ma,Chen Liang
発行日 2024-02-05 13:16:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク