要約
AI システムがよりインテリジェントになり、その動作を評価するのがより困難になるにつれて、AI システムは指示に忠実に従おうとする代わりに、人間のフィードバックの欠陥を利用することを学ぶかもしれません。
ただし、このリスクは、LLM が信頼性の低い状況に対して人間のフィードバックを一般化する方法を制御することで軽減できます。
報酬モデルがどのように一般化するかをよりよく理解するために、8 つのカテゴリにわたる 69 の分布シフトを作成しました。
報酬モデルはデフォルトでは「指示に従う」ことを評価することを学習せず、代わりにインターネットのテキストに似たペルソナを優先することがわかりました。
報酬モデルの内部表現を解釈する手法は、標準的な微調整よりも優れた一般化を実現しますが、依然として、指示に従う動作と混同された動作を区別できないことがよくあります。
私たちは、最も困難な 15 の分布シフトを GENeralization Analyzer (GENIES) ベンチマークに統合し、これにより報酬モデルの一般化の制御に向けた進歩が可能になることを期待しています。
要約(オリジナル)
As AI systems become more intelligent and their behavior becomes more challenging to assess, they may learn to game the flaws of human feedback instead of genuinely striving to follow instructions; however, this risk can be mitigated by controlling how LLMs generalize human feedback to situations where it is unreliable. To better understand how reward models generalize, we craft 69 distribution shifts spanning 8 categories. We find that reward models do not learn to evaluate `instruction-following’ by default and instead favor personas that resemble internet text. Techniques for interpreting reward models’ internal representations achieve better generalization than standard fine-tuning, but still frequently fail to distinguish instruction-following from conflated behaviors. We consolidate the 15 most challenging distribution shifts into the GENeralization analogIES (GENIES) benchmark, which we hope will enable progress toward controlling reward model generalization.
arxiv情報
著者 | Joshua Clymer,Garrett Baker,Rohan Subramani,Sam Wang |
発行日 | 2023-12-17 21:18:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google