Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards

要約

現在では、特定のタスクにおける知識やスキルを評価する一般的なベンチマークとは対照的に、モデルの出力を評価するために人間が手動で投票することで大規模言語モデル (LLM) を評価することが一般的になっています。
このタイプのベンチマークで最も人気のある Chatbot Arena は、ランダムに選択された 2 つのモデルの間でより良い応答を選択するようユーザーに求めることでモデルをランク付けします (どのモデルが世代を担当したかは明らかにしません)。
これらのプラットフォームは、LLM 機能の公平かつ正確な尺度として広く信頼されています。
このペーパーでは、ボット保護やその他の防御策が実装されていない場合、これらの投票ベースのベンチマークは潜在的に敵対的な操作に対して脆弱であることを示します。
具体的には、攻撃者が約 1,000 票を犠牲にしてリーダーボードを変更できる (お気に入りのモデルを昇格させたり、競合他社を降格させたりする) ことができることを示します (チャットボット アリーナのオフライン バージョンのシミュレーションで検証)。
私たちの攻撃は 2 つのステップで構成されています。まず、攻撃者が $95\%$ 以上の精度で特定の応答を生成するためにどのモデルが使用されたかを特定する方法を示します。
その後、攻撃者はこの情報を使用して、ターゲット モデルに一貫して賛成 (または反対) 投票を行うことができます。
Chatbot Arena の開発者と協力して、私たちは、敵対的な操作に対する Chatbot Arena の堅牢性を向上させるための緩和策を特定、提案、実装しています。分析に基づくと、このような攻撃のコストは大幅に増加します。
Cloudflare によるボット保護、悪意のあるユーザーの検出、レート制限など、これらの防御機能の一部はコラボレーション前から存在していました。
チャットボット アリーナのセキュリティを強化するために、reCAPTCHA やログインなどのその他の機能も統合されています。

要約(オリジナル)

It is now common to evaluate Large Language Models (LLMs) by having humans manually vote to evaluate model outputs, in contrast to typical benchmarks that evaluate knowledge or skill at some particular task. Chatbot Arena, the most popular benchmark of this type, ranks models by asking users to select the better response between two randomly selected models (without revealing which model was responsible for the generations). These platforms are widely trusted as a fair and accurate measure of LLM capabilities. In this paper, we show that if bot protection and other defenses are not implemented, these voting-based benchmarks are potentially vulnerable to adversarial manipulation. Specifically, we show that an attacker can alter the leaderboard (to promote their favorite model or demote competitors) at the cost of roughly a thousand votes (verified in a simulated, offline version of Chatbot Arena). Our attack consists of two steps: first, we show how an attacker can determine which model was used to generate a given reply with more than $95\%$ accuracy; and then, the attacker can use this information to consistently vote for (or against) a target model. Working with the Chatbot Arena developers, we identify, propose, and implement mitigations to improve the robustness of Chatbot Arena against adversarial manipulation, which, based on our analysis, substantially increases the cost of such attacks. Some of these defenses were present before our collaboration, such as bot protection with Cloudflare, malicious user detection, and rate limiting. Others, including reCAPTCHA and login are being integrated to strengthen the security in Chatbot Arena.

arxiv情報

著者 Yangsibo Huang,Milad Nasr,Anastasios Angelopoulos,Nicholas Carlini,Wei-Lin Chiang,Christopher A. Choquette-Choo,Daphne Ippolito,Matthew Jagielski,Katherine Lee,Ken Ziyu Liu,Ion Stoica,Florian Tramer,Chiyuan Zhang
発行日 2025-01-13 17:12:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク