Learning from Naturally Occurring Feedback

要約

人間のフィードバック データは、言語モデルの開発において重要なコンポーネントです。
ただし、このフィードバックの収集にはコストがかかり、最終的には拡張性がありません。
ユーザーがチャット モデルと対話するときに自然に含まれるフィードバックを抽出し、それをモデルのトレーニングに活用するためのスケーラブルな方法を提案します。
私たちは、幻覚や偏見の減少など、自然主義的な (自動生成ではなく) フィードバックを使用することに定性的な利点があることを示した以前の研究によってさらに動機付けられています。
標準コーパス内に自然に発生するフィードバックの存在を確認するために、会話データに手動で注釈を付けたところ、チャットの 30% にも明示的なフィードバックが含まれていることがわかりました。
私たちはこのメソッドを 100 万を超える会話に適用して、数十万のフィードバック サンプルを取得しました。
抽出されたフィードバックを使用したトレーニングでは、ベースライン モデルと比較して大幅なパフォーマンスの向上が示され、人間の好みへのモデルの調整を強化する際のアプローチの有効性が実証されています。

要約(オリジナル)

Human feedback data is a critical component in developing language models. However, collecting this feedback is costly and ultimately not scalable. We propose a scalable method for extracting feedback that users naturally include when interacting with chat models, and leveraging it for model training. We are further motivated by previous work that showed there are also qualitative advantages to using naturalistic (rather than auto-generated) feedback, such as less hallucinations and biases. We manually annotated conversation data to confirm the presence of naturally occurring feedback in a standard corpus, finding that as much as 30% of the chats include explicit feedback. We apply our method to over 1M conversations to obtain hundreds of thousands of feedback samples. Training with the extracted feedback shows significant performance improvements over baseline models, demonstrating the efficacy of our approach in enhancing model alignment to human preferences.

arxiv情報

著者 Shachar Don-Yehiya,Leshem Choshen,Omri Abend
発行日 2024-07-15 17:41:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク