要約
近年、コンピュータ ビジョンは、医療画像処理、物体認識、地理空間分析などの分野を変革しました。
コンピューター ビジョンの基本的なタスクの 1 つは、オブジェクトの正確な描写に不可欠なセマンティック画像セグメンテーションです。
自動運転は、コンピューター ビジョン アルゴリズムが適用される重要な分野の 1 つです。
路面のセグメンテーションのタスクは自動運転システムにとって重要ですが、いくつかのデータ ドメインで労力を要する注釈プロセスが必要です。
この論文で説明する研究は、マルチセンサー設定で畳み込みニューラル ネットワークを使用して画像セグメンテーションの効率を向上させることを目的としています。
このアプローチでは、LIDAR (光検出および測距) アノテーションを利用して、RGB 画像上で画像セグメンテーション モデルを直接トレーニングします。
LIDAR は、レーザー パルスを発射し、反射を測定して深さ情報を提供することで画像を補完します。
ただし、LIDAR のまばらな点群により、正確なオブジェクトのセグメンテーションが困難になることがよくあります。
点群のセグメンテーションには、時間のかかる事前のデータ準備と大量の計算リソースが必要です。
私たちのアプローチの主な革新は、点群からのまばらなグラウンドトゥルース マスクに対処するマスクされた損失です。
LIDAR ポイントが存在する場所のみで損失を計算することで、モデルは LIDAR ポイントをグラウンド トゥルースとして使用して画像上の道路セグメンテーションを学習します。
このアプローチにより、モデルのトレーニング中にさまざまなグラウンドトゥルース データ タイプをブレンドすることができます。
ベンチマーク データセットでのアプローチの実験による検証では、高品質の画像セグメンテーション モデルと同等のパフォーマンスが示されています。
LIDAR を組み込むと、アノテーションの負荷が軽減され、セグメンテーションの品質を損なうことなく画像セグメンテーション モデルをトレーニングできるようになります。
この方法論は、公的に入手可能なデータセットと独自のデータセットの両方でテストされています。
この論文では、提案された方法の長所と短所についても説明されています。
要約(オリジナル)
In recent years, computer vision has transformed fields such as medical imaging, object recognition, and geospatial analytics. One of the fundamental tasks in computer vision is semantic image segmentation, which is vital for precise object delineation. Autonomous driving represents one of the key areas where computer vision algorithms are applied. The task of road surface segmentation is crucial in self-driving systems, but it requires a labor-intensive annotation process in several data domains. The work described in this paper aims to improve the efficiency of image segmentation using a convolutional neural network in a multi-sensor setup. This approach leverages lidar (Light Detection and Ranging) annotations to directly train image segmentation models on RGB images. Lidar supplements the images by emitting laser pulses and measuring reflections to provide depth information. However, lidar’s sparse point clouds often create difficulties for accurate object segmentation. Segmentation of point clouds requires time-consuming preliminary data preparation and a large amount of computational resources. The key innovation of our approach is the masked loss, addressing sparse ground-truth masks from point clouds. By calculating loss exclusively where lidar points exist, the model learns road segmentation on images by using lidar points as ground truth. This approach allows for blending of different ground-truth data types during model training. Experimental validation of the approach on benchmark datasets shows comparable performance to a high-quality image segmentation model. Incorporating lidar reduces the load on annotations and enables training of image-segmentation models without loss of segmentation quality. The methodology is tested on diverse datasets, both publicly available and proprietary. The strengths and weaknesses of the proposed method are also discussed in the paper.
arxiv情報
著者 | Dinar Sharafutdinov,Stanislav Kuskov,Saian Protasov,Alexey Voropaev |
発行日 | 2023-11-08 15:55:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google