要約
深層学習アルゴリズムは、多くの場合、異なるデータセットでトレーニングおよびデプロイされます。
トレーニング データセットとテスト データセットの間に体系的な違いがあると、アルゴリズムのパフォーマンスが低下する可能性があります。これはドメイン シフト問題として知られています。
この問題は、アルゴリズムがシミュレートされたデータでトレーニングされ、現実世界のデータセットに適用される多くの科学分野で蔓延しています。
通常、ドメイン シフトの問題は、さまざまなドメイン適応方法を通じて解決されます。
ただし、これらの方法は多くの場合、特定の下流タスクに合わせて調整されており、さまざまなタスクに簡単に一般化できない場合があります。
この研究では、ダウンストリーム アルゴリズムに固有ではないドメイン シフト問題を解決する別の方法を使用する可能性を検討します。
提案されたアプローチは、完全に教師なしの方法で異なる画像ドメイン間の翻訳を見つけるように設計された、最新の Unpaired Image-to-Image 翻訳技術に依存しています。
この研究では、このアプローチは、液体アルゴン時間投影チャンバー (LArTPC) 検出器の研究で、2 つの異なる分布の検出器データセット間でサンプルを決定論的に変換する方法を模索する際によく遭遇するドメイン シフト問題に適用されます。
この変換により、実世界のデータをシミュレートされたデータ ドメインにマッピングすることが可能になり、ドメイン シフトに関連した劣化を大幅に抑えてダウンストリーム アルゴリズムを実行できます。
逆に、現実世界のドメインでシミュレートされたデータからの変換を使用すると、シミュレートされたデータセットの現実性が高まり、体系的な不確実性の大きさが軽減されます。
私たちは、科学データを処理するためにいくつかの UI2I 変換アルゴリズムを適応させ、LArTPC 検出器データのドメイン シフト問題を解決するためのこれらの技術の実行可能性を実証しました。
科学データセットのドメイン適応技術のさらなる開発を促進するために、この研究で使用された「単純な液体アルゴン追跡サンプル」データセットも公開されています。
要約(オリジナル)
Deep learning algorithms often are trained and deployed on different datasets. Any systematic difference between the training and a test dataset may degrade the algorithm performance–what is known as the domain shift problem. This issue is prevalent in many scientific domains where algorithms are trained on simulated data but applied to real-world datasets. Typically, the domain shift problem is solved through various domain adaptation methods. However, these methods are often tailored for a specific downstream task and may not easily generalize to different tasks. This work explores the feasibility of using an alternative way to solve the domain shift problem that is not specific to any downstream algorithm. The proposed approach relies on modern Unpaired Image-to-Image translation techniques, designed to find translations between different image domains in a fully unsupervised fashion. In this study, the approach is applied to a domain shift problem commonly encountered in Liquid Argon Time Projection Chamber (LArTPC) detector research when seeking a way to translate samples between two differently distributed detector datasets deterministically. This translation allows for mapping real-world data into the simulated data domain where the downstream algorithms can be run with much less domain-shift-related degradation. Conversely, using the translation from the simulated data in a real-world domain can increase the realism of the simulated dataset and reduce the magnitude of any systematic uncertainties. We adapted several UI2I translation algorithms to work on scientific data and demonstrated the viability of these techniques for solving the domain shift problem with LArTPC detector data. To facilitate further development of domain adaptation techniques for scientific datasets, the ‘Simple Liquid-Argon Track Samples’ dataset used in this study also is published.
arxiv情報
著者 | Yi Huang,Dmitrii Torbunov,Brett Viren,Haiwang Yu,Jin Huang,Meifeng Lin,Yihui Ren |
発行日 | 2024-01-09 16:22:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google