要約
ボックスベースの検出器ネットワークをトレーニングすると、弱く教師ありおよび教師なしの方法の位置特定パフォーマンスを向上できることが確立されています。
さらに、これらの検出器を使用して元のネットワークを改善し、さらなる進歩への道を開くことができることを実証することで、この理解を拡張します。
これを達成するために、画像データではなくネットワーク出力に基づいて検出器をトレーニングし、適切な損失逆伝播を適用します。
私たちの調査結果は、「見ることで何がどこにあるのか」というタスクのフレーズの基礎付けが大幅に改善されたこと、および教師なし物体発見のさまざまな方法が明らかになりました。
私たちのコードは https://github.com/eyalgomel/box-based-refinement で入手できます。
要約(オリジナル)
It has been established that training a box-based detector network can enhance the localization performance of weakly supervised and unsupervised methods. Moreover, we extend this understanding by demonstrating that these detectors can be utilized to improve the original network, paving the way for further advancements. To accomplish this, we train the detectors on top of the network output instead of the image data and apply suitable loss backpropagation. Our findings reveal a significant improvement in phrase grounding for the “what is where by looking” task, as well as various methods of unsupervised object discovery. Our code is available at https://github.com/eyalgomel/box-based-refinement.
arxiv情報
著者 | Eyal Gomel,Tal Shaharabany,Lior Wolf |
発行日 | 2023-09-07 17:36:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google