要約
画像のラベル付けは、コンピューター ビジョン テクノロジの開発における重大なボトルネックであり、手動による注釈の時間集約的な性質により、多くの場合、機械学習モデルの可能性が制約されます。
この研究では、人工的なコンテキストと注釈を生成することで注釈付きデータの不足の問題に対処するためにアウトペイントを活用する新しいアプローチを導入し、手動でのラベル付け作業を大幅に削減します。
私たちはこの技術を、自動運転、都市計画、環境モニタリングにおける特に深刻な課題、つまり、目的のクラスに多様なアイレベルの車両画像が不足していることに適用します。
私たちのデータセットは、手動で選択したシード画像から車両を検出してトリミングすることによって取得された AI 生成の車両画像で構成されており、これらの画像は、現実世界のさまざまな状況をシミュレートするために、より大きなキャンバスに塗りつぶされます。
塗りつぶされた画像には詳細な注釈が含まれており、高品質のグラウンド トゥルース データが提供されます。
高度なアウトペイント技術と画質評価により、視覚的な忠実性とコンテキストの関連性が保証されます。
塗装済みの車両による増強により、全体的なパフォーマンス指標が最大 8\% 向上し、過小評価されているクラスの予測が最大 20\% 強化されます。
このアプローチは、自己アノテーション パラダイムとしてのアウトペイントを例示しており、機械学習の複数のドメインにわたってデータセットの汎用性を高めるソリューションを提供します。
この研究で使用されたコードとデータセットへのリンクは、さらなる研究と複製のために https://github.com/amir-kazemi/aidovecl で利用できます。
要約(オリジナル)
Image labeling is a critical bottleneck in the development of computer vision technologies, often constraining the potential of machine learning models due to the time-intensive nature of manual annotations. This work introduces a novel approach that leverages outpainting to address the problem of annotated data scarcity by generating artificial contexts and annotations, significantly reducing manual labeling efforts. We apply this technique to a particularly acute challenge in autonomous driving, urban planning, and environmental monitoring: the lack of diverse, eye-level vehicle images in desired classes. Our dataset comprises AI-generated vehicle images obtained by detecting and cropping vehicles from manually selected seed images, which are then outpainted onto larger canvases to simulate varied real-world conditions. The outpainted images include detailed annotations, providing high-quality ground truth data. Advanced outpainting techniques and image quality assessments ensure visual fidelity and contextual relevance. Augmentation with outpainted vehicles improves overall performance metrics by up to 8\% and enhances prediction of underrepresented classes by up to 20\%. This approach, exemplifying outpainting as a self-annotating paradigm, presents a solution that enhances dataset versatility across multiple domains of machine learning. The code and links to datasets used in this study are available for further research and replication at https://github.com/amir-kazemi/aidovecl.
arxiv情報
著者 | Amir Kazemi,Qurat ul ain Fatima,Volodymyr Kindratenko,Christopher Tessum |
発行日 | 2024-10-31 16:46:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google