要約
20 の質問ゲームと並行して、ブラック ボックス コンテキストに配置された 2 つの大規模言語モデル (LLM) が同じかどうかを判断する方法を紹介します。
目標は、通常 20 個未満の (良性の) 2 項質問の小さなセットを使用することです。問題を形式化し、最初に既知のベンチマーク データセットからランダムに選択した質問を使用してベースラインを確立し、20 個の質問内でほぼ 100% の精度を達成します。
この問題の最適限界を示した後、同じタスクに対して半分の質問を使用して 22 個の LLM を識別できる 2 つの効果的な質問ヒューリスティックを紹介します。
これらの方法はステルス性の点で大きな利点を提供するため、モデル漏洩の疑いに直面している監査人や著作権所有者にとって興味深いものです。
要約(オリジナル)
In a parallel with the 20 questions game, we present a method to determine whether two large language models (LLMs), placed in a black-box context, are the same or not. The goal is to use a small set of (benign) binary questions, typically under 20. We formalize the problem and first establish a baseline using a random selection of questions from known benchmark datasets, achieving an accuracy of nearly 100% within 20 questions. After showing optimal bounds for this problem, we introduce two effective questioning heuristics able to discriminate 22 LLMs by using half as many questions for the same task. These methods offer significant advantages in terms of stealth and are thus of interest to auditors or copyright owners facing suspicions of model leaks.
arxiv情報
著者 | Gurvan Richardeau,Erwan Le Merrer,Camilla Penzo,Gilles Tredan |
発行日 | 2024-09-16 14:50:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google