Evaluating Superhuman Models with Consistency Checks

要約

機械学習モデルがさまざまな推論や意思決定のタスクで超人的な能力を達成できるとしたら、人間は必然的にグラウンドトゥルースの代理としては不十分であることを考慮すると、そのようなモデルをどのように評価すればよいでしょうか?
この論文では、整合性チェックを通じて超人モデルを評価するためのフレームワークを提案します。
私たちの前提は、超人的な決定の正しさを評価することは不可能かもしれないが、モデルの決定が特定の論理的で人間が解釈可能なルールを満たしていない場合、間違いを表面化できるということです。
私たちは、超人的なモデルの能力、またはグラウンドトゥルースの欠如により、決定の正しさを評価することが難しい 3 つのタスク (チェスの局面の評価、将来の出来事の予測、および法的判断の実行) に関するフレームワークをインスタンス化します。
これらのタスクにおけるモデルの (おそらく超人的な) パフォーマンスに関係なく、意思決定における論理的矛盾を発見できることを示します。
例: 意味的に同一のボードに反対の評価を割り当てるチェス エンジン。
GPT-4 は、スポーツの記録が時間の経過とともに非単調に進化すると予測しています。
または、AI 判事が被告の犯罪歴に重罪を追加した場合にのみ、被告に保釈金を与えることもあります。

要約(オリジナル)

If machine learning models were to achieve superhuman abilities at various reasoning or decision-making tasks, how would we go about evaluating such models, given that humans would necessarily be poor proxies for ground truth? In this paper, we propose a framework for evaluating superhuman models via consistency checks. Our premise is that while the correctness of superhuman decisions may be impossible to evaluate, we can still surface mistakes if the model’s decisions fail to satisfy certain logical, human-interpretable rules. We instantiate our framework on three tasks where correctness of decisions is hard to evaluate due to either superhuman model abilities, or to otherwise missing ground truth: evaluating chess positions, forecasting future events, and making legal judgments. We show that regardless of a model’s (possibly superhuman) performance on these tasks, we can discover logical inconsistencies in decision making. For example: a chess engine assigning opposing valuations to semantically identical boards; GPT-4 forecasting that sports records will evolve non-monotonically over time; or an AI judge assigning bail to a defendant only after we add a felony to their criminal record.

arxiv情報

著者 Lukas Fluri,Daniel Paleka,Florian Tramèr
発行日 2023-06-19 18:03:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG, stat.ML パーマリンク