要約
水中密度の高い予測、特に深さの推定とセマンティックセグメンテーションは、水中シーンの包括的な理解を得るために重要です。
それにもかかわらず、複雑な環境と法外なデータ収集コストのために、密な注釈を備えた高品質で大規模な水中データセットが不足しています。
このペーパーでは、水中シーンの統一されたテキストから画像へのテキストからイメージと密な注釈生成法(TIDE)を提案します。
それは、現実的な水中画像と複数の非常に一貫した密な注釈を同時に生成するために、入力としてのテキストのみに依存しています。
具体的には、単一のモデル内でテキストからイメージとテキストから密度の高い注釈の生成を統合します。
時間適応正規化(TAN)と呼ばれる暗黙のレイアウト共有メカニズム(ILS)およびクロスモーダル相互作用方法が導入され、画像と密な注釈の一貫性を共同で最適化します。
Tideを使用して大規模な水中データセットを合成して、水中密度の高い予測タスクにおける方法の有効性を検証します。
結果は、我々の方法が既存の水中密度の高い予測モデルのパフォーマンスを効果的に改善し、密な注釈を備えた水中データの希少性を軽減することを示しています。
私たちの方法が、他の分野でのデータの希少性の問題を緩和することに関する新しい視点を提供できることを願っています。
このコードは、https://github.com/hongklin/tideで入手できます。
要約(オリジナル)
Underwater dense prediction, especially depth estimation and semantic segmentation, is crucial for gaining a comprehensive understanding of underwater scenes. Nevertheless, high-quality and large-scale underwater datasets with dense annotations remain scarce because of the complex environment and the exorbitant data collection costs. This paper proposes a unified Text-to-Image and DEnse annotation generation method (TIDE) for underwater scenes. It relies solely on text as input to simultaneously generate realistic underwater images and multiple highly consistent dense annotations. Specifically, we unify the generation of text-to-image and text-to-dense annotations within a single model. The Implicit Layout Sharing mechanism (ILS) and cross-modal interaction method called Time Adaptive Normalization (TAN) are introduced to jointly optimize the consistency between image and dense annotations. We synthesize a large-scale underwater dataset using TIDE to validate the effectiveness of our method in underwater dense prediction tasks. The results demonstrate that our method effectively improves the performance of existing underwater dense prediction models and mitigates the scarcity of underwater data with dense annotations. We hope our method can offer new perspectives on alleviating data scarcity issues in other fields. The code is available at https: //github.com/HongkLin/TIDE.
arxiv情報
著者 | Hongkai Lin,Dingkang Liang,Zhenghao Qi,Xiang Bai |
発行日 | 2025-03-27 17:59:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google