要約
平方キロメートル アレイ (SKA) の完成が近づくにつれて、取得できる膨大な量のデータから貴重な情報を抽出するための、正確で信頼性の高い自動化ソリューションに対する需要が高まっています。
自動化されたソース発見は、天体の検出と分類を可能にするため、この状況では特に重要なタスクです。
ディープラーニング ベースのオブジェクト検出モデルとセマンティック セグメンテーション モデルがこの目的に適していることが証明されています。
ただし、このような深いネットワークのトレーニングには大量のラベル付きデータが必要であり、電波天文学の観点から取得するのは簡単ではありません。
データには専門家が手動でラベルを付ける必要があるため、このプロセスは大きなデータセットサイズには拡張できず、ディープネットワークを活用していくつかのタスクに対処する可能性が制限されます。
この研究では、既存のデータセットを強化し、クラスの不均衡によって引き起こされる問題を軽減するために、さまざまな形態の電波源を含む合成画像を生成するために、アノテーション付き電波データセットに対してトレーニングされた条件付き拡散モデルに基づく生成アプローチである RADiff を提案します。
また、完全に合成された画像とアノテーションのペアを生成して、アノテーション付きデータセットを自動的に拡張できることも示します。
このアプローチの有効性を評価するには、1) 実際のマスクから取得した合成画像を使用する、2) 合成セマンティック マスクから画像を生成するという 2 つの方法で強化された実際のデータセット上でセマンティック セグメンテーション モデルをトレーニングします。
拡張を適用するとパフォーマンスが向上し、実際のマスクを使用するとパフォーマンスが最大 18%、合成マスクを使用して拡張すると 4% 向上することがわかりました。
最後に、このモデルを使用して、データ チャレンジをシミュレートする目的で大規模な無線マップを生成します。
要約(オリジナル)
Along with the nearing completion of the Square Kilometre Array (SKA), comes an increasing demand for accurate and reliable automated solutions to extract valuable information from the vast amount of data it will allow acquiring. Automated source finding is a particularly important task in this context, as it enables the detection and classification of astronomical objects. Deep-learning-based object detection and semantic segmentation models have proven to be suitable for this purpose. However, training such deep networks requires a high volume of labeled data, which is not trivial to obtain in the context of radio astronomy. Since data needs to be manually labeled by experts, this process is not scalable to large dataset sizes, limiting the possibilities of leveraging deep networks to address several tasks. In this work, we propose RADiff, a generative approach based on conditional diffusion models trained over an annotated radio dataset to generate synthetic images, containing radio sources of different morphologies, to augment existing datasets and reduce the problems caused by class imbalances. We also show that it is possible to generate fully-synthetic image-annotation pairs to automatically augment any annotated dataset. We evaluate the effectiveness of this approach by training a semantic segmentation model on a real dataset augmented in two ways: 1) using synthetic images obtained from real masks, and 2) generating images from synthetic semantic masks. We show an improvement in performance when applying augmentation, gaining up to 18% in performance when using real masks and 4% when augmenting with synthetic masks. Finally, we employ this model to generate large-scale radio maps with the objective of simulating Data Challenges.
arxiv情報
著者 | Renato Sortino,Thomas Cecconello,Andrea DeMarco,Giuseppe Fiameni,Andrea Pilzer,Andrew M. Hopkins,Daniel Magro,Simone Riggi,Eva Sciacca,Adriano Ingallinera,Cristobal Bordiu,Filomena Bufano,Concetto Spampinato |
発行日 | 2023-07-05 16:04:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google