要約
オープンワールド物体検出 (OWOD) は、標準的な物体検出タスクの範囲を超える、挑戦的かつ現実的なタスクです。
これには、既知のオブジェクトと未知のオブジェクトの両方を検出しながら、学んだ知識を将来のタスクに統合することが含まれます。
ただし、「未知」のレベルは状況によって大きく異なります。
たとえば、木は通常、自動運転シーンでは背景の一部とみなされますが、家庭内では重要な意味を持つ場合があります。
私たちは、このコンテキスト情報は既知のクラス内にすでに埋め込まれている必要があると主張します。
言い換えれば、発見される既知の項目と未知の項目の間には意味論的または潜在的な構造関係が存在する必要があります。
この観察に動機付けられて、私たちは、SuperClass Regularizer を通じて既知の項目の階層表現を学習およびモデル化する方法である Hyp-OW を提案します。
この表現を活用すると、類似距離ベースの再ラベル付けモジュールを使用して未知のオブジェクトを効果的に検出できます。
ベンチマーク データセットに関する広範な実験により、Hyp-OW の有効性が実証され、既知および未知の検出の両方で改善 (最大 6%) が達成されました。
これらの発見は、既知のオブジェクトと未知のオブジェクトの間に強力な階層構造が存在する、新しく設計されたベンチマークで特に顕著です。
私たちのコードは https://github.com/boschresearch/Hyp-OW にあります。
要約(オリジナル)
Open World Object Detection (OWOD) is a challenging and realistic task that extends beyond the scope of standard Object Detection task. It involves detecting both known and unknown objects while integrating learned knowledge for future tasks. However, the level of ‘unknownness’ varies significantly depending on the context. For example, a tree is typically considered part of the background in a self-driving scene, but it may be significant in a household context. We argue that this contextual information should already be embedded within the known classes. In other words, there should be a semantic or latent structure relationship between the known and unknown items to be discovered. Motivated by this observation, we propose Hyp-OW, a method that learns and models hierarchical representation of known items through a SuperClass Regularizer. Leveraging this representation allows us to effectively detect unknown objects using a similarity distance-based relabeling module. Extensive experiments on benchmark datasets demonstrate the effectiveness of Hyp-OW, achieving improvement in both known and unknown detection (up to 6 percent). These findings are particularly pronounced in our newly designed benchmark, where a strong hierarchical structure exists between known and unknown objects. Our code can be found at https://github.com/boschresearch/Hyp-OW
arxiv情報
著者 | Thang Doan,Xin Li,Sima Behpour,Wenbin He,Liang Gou,Liu Ren |
発行日 | 2024-02-15 15:55:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google