Diversity from Human Feedback

要約

多様性は、アンサンブル学習、強化学習、組み合わせ最適化などの多くの問題で重要な役割を果たします。
多様性の尺度をどう定義するかは長年の課題です。
多くの方法は専門家の経験に依存して適切な行動空間を定義し、多様性の尺度を取得しますが、これは多くのシナリオで困難です。
この論文では、人間のフィードバックから行動空間を学習するという問題を提案し、それを解決するための Diversity from Human Feedback (DivHF) と呼ばれる一般的な手法を紹介します。
DivHF は、人間のフィードバックを照会することで、人間の好みと一致する行動記述子を学習します。
学習された行動記述子を任意の距離測定と組み合わせて、多様性測定を定義できます。
DivHF を品質-多様性最適化アルゴリズム MAP-Elites と統合し、QDax スイートで実験を行うことにより、DivHF の有効性を実証します。
結果は、DivHF が直接的なデータ駆動型アプローチと比較して人間の要件によりよく適合する行動空間を学習し、人間の好みに応じてより多様なソリューションを導き出すことを示しています。
私たちは問題の定式化、DivHF 法の提案、実験によるその有効性の実証などに貢献しています。

要約(オリジナル)

Diversity plays a significant role in many problems, such as ensemble learning, reinforcement learning, and combinatorial optimization. How to define the diversity measure is a longstanding problem. Many methods rely on expert experience to define a proper behavior space and then obtain the diversity measure, which is, however, challenging in many scenarios. In this paper, we propose the problem of learning a behavior space from human feedback and present a general method called Diversity from Human Feedback (DivHF) to solve it. DivHF learns a behavior descriptor consistent with human preference by querying human feedback. The learned behavior descriptor can be combined with any distance measure to define a diversity measure. We demonstrate the effectiveness of DivHF by integrating it with the Quality-Diversity optimization algorithm MAP-Elites and conducting experiments on the QDax suite. The results show that DivHF learns a behavior space that aligns better with human requirements compared to direct data-driven approaches and leads to more diverse solutions under human preference. Our contributions include formulating the problem, proposing the DivHF method, and demonstrating its effectiveness through experiments.

arxiv情報

著者 Ren-Jian Wang,Ke Xue,Yutong Wang,Peng Yang,Haobo Fu,Qiang Fu,Chao Qian
発行日 2023-10-10 14:13:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク