UrbanGenAI: Reconstructing Urban Landscapes using Panoptic Segmentation and Diffusion Models


現代のデザイン実践において、コンピューター ビジョンと生成人工知能 (genAI) の統合は、よりインタラクティブで包括的なプロセスへの変革的なシフトを表しています。
このペーパーでは、都市デザインへの包括的なアプローチのために、高度な画像セグメンテーションと拡散モデルの間の相乗効果を活用するように設計された、プロトタイプ アプリケーション内にカプセル化された新しいワークフローを紹介します。
私たちの方法論には、詳細な画像セグメンテーションのための OneFormer モデルと、テキストの説明から画像を生成するための ControlNet を通じて実装された Stable Diffusion XL (SDXL) 拡散モデルが含まれています。
検証の結果、プロトタイプ アプリケーションによる高度なパフォーマンスが示され、オブジェクト検出とテキストから画像への生成の両方において高い精度が示されました。
これは、さまざまなカテゴリーの都市景観特徴に対する反復評価全体で優れた Intersection over Union (IoU) および CLIP スコアによって証明されました。
予備テストには、デザイン教育学の学習体験を強化する教育ツールとして、またコミュニティ主導の都市計画を促進する参加型手段として、UrbanGenAI を利用することが含まれていました。
初期の結果は、UrbanGenAI が都市景観再構築の技術的フロンティアを前進させるだけでなく、教育的および参加型の計画に関する重要な利点も提供することを示唆しました。
UrbanGenAI の継続的な開発は、より広範な状況にわたってその有効性をさらに検証し、リアルタイム フィードバック メカニズムや 3D モデリング機能などの追加機能を統合することを目的としています。
キーワード: 生成 AI;


In contemporary design practices, the integration of computer vision and generative artificial intelligence (genAI) represents a transformative shift towards more interactive and inclusive processes. These technologies offer new dimensions of image analysis and generation, which are particularly relevant in the context of urban landscape reconstruction. This paper presents a novel workflow encapsulated within a prototype application, designed to leverage the synergies between advanced image segmentation and diffusion models for a comprehensive approach to urban design. Our methodology encompasses the OneFormer model for detailed image segmentation and the Stable Diffusion XL (SDXL) diffusion model, implemented through ControlNet, for generating images from textual descriptions. Validation results indicated a high degree of performance by the prototype application, showcasing significant accuracy in both object detection and text-to-image generation. This was evidenced by superior Intersection over Union (IoU) and CLIP scores across iterative evaluations for various categories of urban landscape features. Preliminary testing included utilising UrbanGenAI as an educational tool enhancing the learning experience in design pedagogy, and as a participatory instrument facilitating community-driven urban planning. Early results suggested that UrbanGenAI not only advances the technical frontiers of urban landscape reconstruction but also provides significant pedagogical and participatory planning benefits. The ongoing development of UrbanGenAI aims to further validate its effectiveness across broader contexts and integrate additional features such as real-time feedback mechanisms and 3D modelling capabilities. Keywords: generative AI; panoptic image segmentation; diffusion models; urban landscape design; design pedagogy; co-design


著者 Timo Kapsalis
発行日 2024-01-25 18:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク