要約
ディープラーニングは、その並外れた有効性と多くの分野への適用性により、広く普及したパラダイムになりました。
ただし、このアプローチには、このタイプのモデルの可能性を実現するために必要なデータが大量に必要になるという問題があります。
増え続ける人工知能のサブ分野である画像合成は、オリジナルでリアルな画像を作成できるインテリジェント モデルの設計を通じてこの制限に対処することを目的としており、実際のデータの必要性を大幅に削減できる可能性があります。
最近、安定拡散生成パラダイムにより、これまでのすべてのベンチマークを超える最先端のアプローチが推進されました。
この研究では、新しい安定拡散モデル ControlNet に基づいた ContRail フレームワークを提案します。これは、マルチモーダルな調整方法を通じて強化されます。
私たちは合成鉄道画像生成のタスクを実験し、現実的な合成画像でデータセットを強化することで鉄道セマンティック セグメンテーションなどの鉄道固有のタスクのパフォーマンスを向上させます。
要約(オリジナル)
Deep Learning became an ubiquitous paradigm due to its extraordinary effectiveness and applicability in numerous domains. However, the approach suffers from the high demand of data required to achieve the potential of this type of model. An ever-increasing sub-field of Artificial Intelligence, Image Synthesis, aims to address this limitation through the design of intelligent models capable of creating original and realistic images, endeavour which could drastically reduce the need for real data. The Stable Diffusion generation paradigm recently propelled state-of-the-art approaches to exceed all previous benchmarks. In this work, we propose the ContRail framework based on the novel Stable Diffusion model ControlNet, which we empower through a multi-modal conditioning method. We experiment with the task of synthetic railway image generation, where we improve the performance in rail-specific tasks, such as rail semantic segmentation by enriching the dataset with realistic synthetic images.
arxiv情報
著者 | Andrei-Robert Alexandrescu,Razvan-Gabriel Petec,Alexandru Manole,Laura-Silvia Diosan |
発行日 | 2024-12-09 18:34:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google