要約
平面図データ中の情報を認識するためには、検出モデルとセグメンテーションモデルの利用が必要である。しかし、複数の単一タスクモデルに依存することは、複数のタスクが同時に存在する場合、関連する情報を効果的に利用できない可能性がある。この課題を解決するために、我々は、平面図データにおけるセグメンテーションと検出タスクのための注意ベースのマルチタスクモデルであるMuraNetを導入する。MuraNetでは、MURAと呼ばれる統合エンコーダをバックボーンとして採用し、セグメンテーションと検出タスクのために、それぞれYOLOXに基づく拡張セグメンテーションデコーダブランチと非連結検出ヘッドブランチという2つの分離されたブランチを持つ。MuraNetのアーキテクチャは、通常、壁、ドア、窓が間取り図の主要な構造を構成しているという事実を活用するように設計されている。検出タスクとセグメンテーションタスクの両方でモデルを共同学習することで、MuraNetは両方のタスクに関連する特徴を効果的に抽出し、利用できると考えている。CubiCasa5k公開データセットでの実験から、MuraNetはU-NetやYOLOv3のような単一タスクモデルと比較して、学習中の収束速度が向上することが示された。さらに、検出タスクとセグメンテーションタスクにおいて、それぞれ平均APとIoUの改善が見られる。我々のアブレーション実験では、MuraNetの注意ベースの統一バックボーンが、間取り認識タスクにおいてより優れた特徴抽出を達成し、異なるタスクに対して分離されたマルチヘッドブランチを使用することで、モデルの性能がさらに改善されることが実証された。我々の提案するMuraNetモデルは、単一タスクモデルの欠点を解決し、平面図データ認識の精度と効率を向上させることができると考えている。
要約(オリジナル)
The recognition of information in floor plan data requires the use of detection and segmentation models. However, relying on several single-task models can result in ineffective utilization of relevant information when there are multiple tasks present simultaneously. To address this challenge, we introduce MuraNet, an attention-based multi-task model for segmentation and detection tasks in floor plan data. In MuraNet, we adopt a unified encoder called MURA as the backbone with two separated branches: an enhanced segmentation decoder branch and a decoupled detection head branch based on YOLOX, for segmentation and detection tasks respectively. The architecture of MuraNet is designed to leverage the fact that walls, doors, and windows usually constitute the primary structure of a floor plan’s architecture. By jointly training the model on both detection and segmentation tasks, we believe MuraNet can effectively extract and utilize relevant features for both tasks. Our experiments on the CubiCasa5k public dataset show that MuraNet improves convergence speed during training compared to single-task models like U-Net and YOLOv3. Moreover, we observe improvements in the average AP and IoU in detection and segmentation tasks, respectively.Our ablation experiments demonstrate that the attention-based unified backbone of MuraNet achieves better feature extraction in floor plan recognition tasks, and the use of decoupled multi-head branches for different tasks further improves model performance. We believe that our proposed MuraNet model can address the disadvantages of single-task models and improve the accuracy and efficiency of floor plan data recognition.
arxiv情報
著者 | Lingxiao Huang,Jung-Hsuan Wu,Chiching Wei,Wilson Li |
発行日 | 2023-09-01 09:10:04+00:00 |
arxivサイト | arxiv_id(pdf) |