要約
バイオテロやサイバー戦争など、センシティブなトピックに関連する言語モデルの能力を把握する必要性が高まっている。しかし、従来のオープンソースベンチマークは、正解を人間が読める形で公開するという慣習があるため、このタスクには適していません。同時に、閉鎖的な評価を強制することは、開発を阻害し、信頼を損なう可能性がある。そこで私たちは、正解を公開することなく言語モデルをオープンに評価するプロトコル、ハッシュマークを提案する。最も単純な形として、ハッシュマークとは、参照解が公開前に暗号的にハッシュ化されたベンチマークのことである。提案する評価プロトコルの概要に続いて、伝統的な攻撃ベクトル(レインボーテーブル攻撃など)に対する耐性と、高性能化する生成モデル特有の失敗モードに対する耐性を評価する。
要約(オリジナル)
There is a growing need to gain insight into language model capabilities that relate to sensitive topics, such as bioterrorism or cyberwarfare. However, traditional open source benchmarks are not fit for the task, due to the associated practice of publishing the correct answers in human-readable form. At the same time, enforcing mandatory closed-quarters evaluations might stifle development and erode trust. In this context, we propose hashmarking, a protocol for evaluating language models in the open without having to disclose the correct answers. In its simplest form, a hashmark is a benchmark whose reference solutions have been cryptographically hashed prior to publication. Following an overview of the proposed evaluation protocol, we go on to assess its resilience against traditional attack vectors (e.g. rainbow table attacks), as well as against failure modes unique to increasingly capable generative models.
arxiv情報
著者 | Paul Bricman |
発行日 | 2023-12-01 15:16:00+00:00 |
arxivサイト | arxiv_id(pdf) |