要約
Google ストリート ビュー画像でトレーニングされたコンピューター ビジョン モデルは、物質的な地籍を作成できます。
ただし、現在のアプローチでは、手動でアノテーションを付けたデータセットが必要ですが、データセットの取得が難しく、クラスの不均衡が生じることがよくあります。
これらの課題に対処するために、このペーパーでは、DALL-E で生成された合成データセットで Swin Transformer モデルを微調整し、手動でアノテーションを付けた同様のデータセットとパフォーマンスを比較しました。
手動アノテーションが依然としてゴールドスタンダードですが、合成データセットのパフォーマンスは合理的な代替手段であることを示しています。
この発見により、材料地籍の作成に必要な注釈付けが容易になり、建築家に材料再利用の機会に関する洞察が提供され、解体廃棄物の削減に貢献します。
要約(オリジナル)
Computer vision models trained on Google Street View images can create material cadastres. However, current approaches need manually annotated datasets that are difficult to obtain and often have class imbalance. To address these challenges, this paper fine-tuned a Swin Transformer model on a synthetic dataset generated with DALL-E and compared the performance to a similar manually annotated dataset. Although manual annotation remains the gold standard, the synthetic dataset performance demonstrates a reasonable alternative. The findings will ease annotation needed to develop material cadastres, offering architects insights into opportunities for material reuse, thus contributing to the reduction of demolition waste.
arxiv情報
著者 | Josie Harrison,Alexander Hollberg,Yinan Yu |
発行日 | 2024-04-12 15:54:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google