要約
タイトル:最小限のユーザーガイダンスによる疑似深度の影響に関するオープンワールドオブジェクトセグメンテーションの研究
要約:
– 疑似深度マップは、トレーニング中の正解ラベルとして使用される深度マップの予測です。
– この論文では疑似深度マップを活用し、トレーニング中に見たことのないクラスのオブジェクトをセグメンテーションすることができます。
– このため、オブジェクトセグメンテーションタスクはオープンワールドタスクとなります。
– 疑似深度マップは、ダウンストリームタスクに一般化することを目的とした学習済みネットワーク(LeResおよびMiDaS)、またはビデオシーケンス上で教師なしで学習したネットワーク(MonodepthV2)を使用して生成されます。
– ネットワークにどのオブジェクトをセグメンテーションするか指示するために、疑似深度マップの画像上のオブジェクトの表面に単一のクリックを入力として提供します。
– RGB画像が入力の一部である場合とRGB画像がない場合という2つのシナリオでアプローチをテストします。
– 結果は、深度が使用された場合、既知のオブジェクトタイプから(見たことのない)未知のオブジェクトタイプへの一般化性能が著しく向上することを示しています。
– セマンティックバウンダリーデータセットでは、トレーニング中の半分のクラスのみを使用し、深度マップのみでセグメンテーションを実行する場合、見たことのないクラスに対してIoUスコアが61.57から69.79に改善されました。
要約(オリジナル)
Pseudo depth maps are depth map predicitions which are used as ground truth during training. In this paper we leverage pseudo depth maps in order to segment objects of classes that have never been seen during training. This renders our object segmentation task an open world task. The pseudo depth maps are generated using pretrained networks, which have either been trained with the full intention to generalize to downstream tasks (LeRes and MiDaS), or which have been trained in an unsupervised fashion on video sequences (MonodepthV2). In order to tell our network which object to segment, we provide the network with a single click on the object’s surface on the pseudo depth map of the image as input. We test our approach on two different scenarios: One without the RGB image and one where the RGB image is part of the input. Our results demonstrate a considerably better generalization performance from seen to unseen object types when depth is used. On the Semantic Boundaries Dataset we achieve an improvement from $61.57$ to $69.79$ IoU score on unseen classes, when only using half of the training classes during training and performing the segmentation on depth maps only.
arxiv情報
著者 | Robin Schön,Katja Ludwig,Rainer Lienhart |
発行日 | 2023-04-12 09:18:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI