要約
大規模言語モデル (LLM) の機能の向上により、他の LLM をトレーニングおよび評価するための人によるフィードバックの代替として LLM が使用されるようになりました。
これらの方法は多くの場合、批評家モデルがフィードバックを提供し、世代を改善するために使用する文書化されたガイドラインである「憲法」に依存しています。
私たちは、医療面接における患者中心のコミュニケーションを改善するために 4 つの異なる構成を使用して、構成の選択がフィードバックの質にどのような影響を与えるかを調査しました。
215 人の人間の評価者によって行われたペアごとの比較では、詳細な体質が感情的性質に関してより良い結果につながることがわかりました。
しかし、情報の収集と提供に関するより実践的なスキルの学習において、ベースラインを上回る成績を収めた憲法はありませんでした。
私たちの調査結果は、詳細な構成を優先する必要があるものの、特定の領域では報酬シグナルとしての AI フィードバックの有効性に制限がある可能性があることを示しています。
要約(オリジナル)
The growing capabilities of large language models (LLMs) have led to their use as substitutes for human feedback for training and assessing other LLMs. These methods often rely on `constitutions’, written guidelines which a critic model uses to provide feedback and improve generations. We investigate how the choice of constitution affects feedback quality by using four different constitutions to improve patient-centered communication in medical interviews. In pairwise comparisons conducted by 215 human raters, we found that detailed constitutions led to better results regarding emotive qualities. However, none of the constitutions outperformed the baseline in learning more practically-oriented skills related to information gathering and provision. Our findings indicate that while detailed constitutions should be prioritised, there are possible limitations to the effectiveness of AI feedback as a reward signal in certain areas.
arxiv情報
著者 | Saskia Redgate,Andrew M. Bean,Adam Mahdi |
発行日 | 2024-11-15 13:16:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google