Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A Case-Study in E-Commerce Opinion Summarization

要約

人間のフィードバックからの強化学習 (RLHF) は、言語モデル (LM) を人間の価値観/目標に向けて導く際の主要な戦略となっています。
この戦略の鍵は、人間の潜在的な報酬モデルを反映できる報酬モデル ({$\varphi$}) を採用することです。
この戦略は効果的であることが証明されていますが、このトレーニング方法では、{$\varphi$} をトレーニングするために大量の人間の好みのアノテーション (通常は数万程度) が必要です。
このような大規模な好みのアノテーションは、報酬モデルがユビキタスで使用できる場合に実現可能です。
ただし、人間の価値観や目標は主観的なものであり、タスクの性質によって異なります。
これにより、下流アプリケーションの多様な設定を収集することが困難になります。
これに対処するために、ドメイン知識を {$\varphi$} に注入する新しい方法論を提案します。これにより、必要な設定アノテーションのサイズが削減されます。
私たちは、最先端の技術を進歩させながら、データセット サイズを大幅に削減し (わずか 940 ドルのサンプル)、電子商取引意見の要約におけるアプローチを検証します。
私たちの貢献には、新しい報酬モデリング技術、意見要約のための新しいデータセット (PromptOpinSumm)、人間の好みのデータセット (OpinPref) が含まれます。
提案された方法論は、効率的な RLHF への道を開き、さまざまな人間の価値観を持つ多様なアプリケーションに適応できるようにします。
当社は、MIT ライセンスに基づいて使用するためにアーティファクトをリリースします。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) has become a dominating strategy in steering Language Models (LMs) towards human values/goals. The key to the strategy is employing a reward model ({$\varphi$}) which can reflect a latent reward model with humans. While this strategy has proven to be effective, the training methodology requires a lot of human preference annotation (usually of the order of tens of thousands) to train {$\varphi$}. Such large-scale preference annotations can be achievable if the reward model can be ubiquitously used. However, human values/goals are subjective and depend on the nature of the task. This poses a challenge in collecting diverse preferences for downstream applications. To address this, we propose a novel methodology to infuse domain knowledge into {$\varphi$}, which reduces the size of preference annotation required. We validate our approach in E-Commerce Opinion Summarization, with a significant reduction in dataset size (just $940$ samples) while advancing the state-of-the-art. Our contributions include a novel Reward Modelling technique, a new dataset (PromptOpinSumm) for Opinion Summarization, and a human preference dataset (OpinPref). The proposed methodology opens avenues for efficient RLHF, making it more adaptable to diverse applications with varying human values. We release the artifacts for usage under MIT License.

arxiv情報

著者 Swaroop Nath,Tejpalsingh Siledar,Sankara Sri Raghava Ravindra Muddu,Rupasai Rangaraju,Harshad Khadilkar,Pushpak Bhattacharyya,Suman Banerjee,Amey Patil,Sudhanshu Shekhar Singh,Muthusamy Chelliah,Nikesh Garera
発行日 2024-02-23 18:05:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク