要約
複雑なタスクを実行するために強力な AI システムをトレーニングする場合、最適化に対して堅牢なトレーニング信号を提供することが難しい場合があります。
懸念の 1 つは \textit{測定値の改ざん} です。AI システムが複数の測定値を操作して、望ましい結果を達成するのではなく、良い結果が得られたかのような錯覚を作り出します。
この研究では、大規模な言語モデルでの測定改ざん検出技術を評価するために、4 つの新しいテキストベースのデータセットを構築します。
具体的には、何らかの結果が発生したかどうかを判断することを目的としたテキスト入力と測定値のセット、および測定値を正確に予測できる基本モデルが与えられた場合、目標は、すべての測定値が結果が発生したことを示している例が実際に結果が発生したかどうかを判断することです。
これが測定値の改ざんによって引き起こされた場合。
ほとんどのデータセットで単純なベースラインを上回るパフォーマンスを示す手法を実証しますが、最大のパフォーマンスを達成することはできません。
私たちは、技術とデータセットの両方に大きな改善の余地があると信じており、測定の改ざんに取り組む今後の取り組みに期待しています。
要約(オリジナル)
When training powerful AI systems to perform complex tasks, it may be challenging to provide training signals which are robust to optimization. One concern is \textit{measurement tampering}, where the AI system manipulates multiple measurements to create the illusion of good results instead of achieving the desired outcome. In this work, we build four new text-based datasets to evaluate measurement tampering detection techniques on large language models. Concretely, given sets of text inputs and measurements aimed at determining if some outcome occurred, as well as a base model able to accurately predict measurements, the goal is to determine if examples where all measurements indicate the outcome occurred actually had the outcome occur, or if this was caused by measurement tampering. We demonstrate techniques that outperform simple baselines on most datasets, but don’t achieve maximum performance. We believe there is significant room for improvement for both techniques and datasets, and we are excited for future work tackling measurement tampering.
arxiv情報
著者 | Fabien Roger,Ryan Greenblatt,Max Nadeau,Buck Shlegeris,Nate Thomas |
発行日 | 2023-09-29 15:53:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google