Reward Finetuning for Faster and More Accurate Unsupervised Object Discovery

要約

最近の機械学習の進歩により、ヒューマン フィードバックからの強化学習 (RLHF) によって機械学習モデルが改善され、人間の好みに合わせられることがわかってきました。
大規模言語モデル (LLM) では非常に成功しましたが、これらの進歩は、人間の期待に合わせることが不可欠な自動運転車の研究には匹敵する影響を与えていません。
この論文では、同様の RL ベースの手法を教師なし物体発見、つまりトレーニング ラベルなしで LiDAR ポイントから物体を検出する学習に適応させることを提案します。
ラベルの代わりに、単純なヒューリスティックを使用して人間のフィードバックを模倣します。
より明確に、複数のヒューリスティックを組み合わせて、そのスコアと境界ボックスの精度に正の相関関係をもつ単純な報酬関数を作成します。つまり、オブジェクトを含むボックスは、オブジェクトを含まないボックスよりもスコアが高くなります。
検出器自身の予測から開始して空間を探索し、勾配更新を通じて高い報酬でボックスを強化します。
経験的に、私たちのアプローチはより正確であるだけでなく、物体発見に関する以前の研究と比較して訓練が桁違いに速いことを示しています。

要約(オリジナル)

Recent advances in machine learning have shown that Reinforcement Learning from Human Feedback (RLHF) can improve machine learning models and align them with human preferences. Although very successful for Large Language Models (LLMs), these advancements have not had a comparable impact in research for autonomous vehicles — where alignment with human expectations can be imperative. In this paper, we propose to adapt similar RL-based methods to unsupervised object discovery, i.e. learning to detect objects from LiDAR points without any training labels. Instead of labels, we use simple heuristics to mimic human feedback. More explicitly, we combine multiple heuristics into a simple reward function that positively correlates its score with bounding box accuracy, \ie, boxes containing objects are scored higher than those without. We start from the detector’s own predictions to explore the space and reinforce boxes with high rewards through gradient updates. Empirically, we demonstrate that our approach is not only more accurate, but also orders of magnitudes faster to train compared to prior works on object discovery.

arxiv情報

著者 Katie Z Luo,Zhenzhen Liu,Xiangyu Chen,Yurong You,Sagie Benaim,Cheng Perng Phoo,Mark Campbell,Wen Sun,Bharath Hariharan,Kilian Q. Weinberger
発行日 2023-10-29 17:03:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク