Aligning Object Detector Bounding Boxes with Human Preference

要約

これまでの研究では、人間は同じ IoU の小さな境界ボックスよりも大きな境界ボックスを好む傾向があることが示されています。
ただし、ここでは、一般的に使用されているオブジェクト検出器が、大きなボックスと小さなボックスを同じ頻度で予測することを示します。
この研究では、自動的に検出されたオブジェクト ボックスを人間の好みに合わせる方法を調査し、これによって人間の品質認識が向上するかどうかを研究します。
ユーザー調査 (N = 123) を通じて、一般的に使用される 3 つの物体検出器のパフォーマンスを評価します。
人間は、たとえ対応する AP が 0 に近い場合でも、1.5 または 2 の係数でアップスケールされた物体検出を好むことがわかりました。この結果を動機として、予測されるバウンディング ボックスが小さいよりも大きいことを促す非対称バウンディング ボックス回帰損失を提案します。
私たちの評価研究では、非対称損失で微調整された物体検出器は人間の好みによりよく適合し、固定スケーリング係数よりも好まれることが示されています。
定性的評価により、人間の好みは物体の形状など、いくつかの物体の特性に影響される可能性があることが示されています。

要約(オリジナル)

Previous work shows that humans tend to prefer large bounding boxes over small bounding boxes with the same IoU. However, we show here that commonly used object detectors predict large and small boxes equally often. In this work, we investigate how to align automatically detected object boxes with human preference and study whether this improves human quality perception. We evaluate the performance of three commonly used object detectors through a user study (N = 123). We find that humans prefer object detections that are upscaled with factors of 1.5 or 2, even if the corresponding AP is close to 0. Motivated by this result, we propose an asymmetric bounding box regression loss that encourages large over small predicted bounding boxes. Our evaluation study shows that object detectors fine-tuned with the asymmetric loss are better aligned with human preference and are preferred over fixed scaling factors. A qualitative evaluation shows that human preference might be influenced by some object characteristics, like object shape.

arxiv情報

著者 Ombretta Strafforello,Osman S. Kayhan,Oana Inel,Klamer Schutte,Jan van Gemert
発行日 2024-08-20 13:37:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク