要約
評価者が信頼できるのは、ラベラーとしての性能を測定するための、合意された方法が存在するときである。信頼性を確立する2つの方法は、テストするか、評価者がコーパスのラベル付け方法を「知っている」と仮定することである。前者はデータを必要とし、後者は仮定であって証拠ではない。前者はデータを必要とし、後者は証拠ではなく仮定である。これに対処するために、既存の参照なしで評価者の信頼を確立するアルゴリズム(`No-Data Algorithm’)を紹介する。我々のアルゴリズムは、評価者に連続的に課題を課すことで機能する。評価者がコーパスにラベルを付ける方法を実際に知っている場合、No-Dataアルゴリズムはその出力を受け入れ、逆に評価者がそれを証明できない場合、信頼できない評価者にフラグを立てる。正しさの正式な証明と限定的な実験を示す。
要約(オリジナル)
An evaluator is trustworthy when there exists some agreed-upon way to measure its performance as a labeller. The two ways to establish trustworthiness are either by testing it, or by assuming the evaluator `knows’ somehow the way to label the corpus. However, if labelled references (e.g., a development set) are unavailable, neither of these approaches work: the former requires the data, and the latter is an assumption, not evidence. To address this, we introduce an algorithm (the `No-Data Algorithm’) by which to establish trust in an evaluator without any existing references. Our algorithm works by successively posing challenges to said evaluator. We show that this is sufficient to establish trustworthiness w.h.p., in such a way that when the evaluator actually knows the way to label the corpus, the No-Data Algorithm accepts its output; and, conversely, flags untrustworthy evaluators when these are unable to prove it. We present formal proofs of correctness and limited experiments.
arxiv情報
| 著者 | Adrian de Wynter | 
| 発行日 | 2025-06-03 17:04:22+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
