Are You Human? An Adversarial Benchmark to Expose LLMs

要約

大規模言語モデル (LLM) は、会話中に人間になりすます驚くべき能力を実証しており、詐欺や欺瞞に悪用される可能性についての懸念が生じています。
人間には、LLM と会話しているかどうかを知る権利があります。
LLM 偽者をリアルタイムで暴露するための課題として設計されたテキストベースのプロンプトを評価します。
この目的を達成するために、LLM の命令従うメカニズムを悪用して役割の逸脱を引き起こす「暗黙的チャレンジ」と、一般に人間にとって簡単な単純なタスクを実行する LLM の能力をテストする「明示的チャレンジ」を含むオープンソースのベンチマーク データセットをコンパイルしてリリースします。
しかし、LLMにとっては困難です。
LMSYS リーダーボードの 9 つの主要モデルを評価したところ、明示的チャレンジはケースの 78.4% で LLM の検出に成功し、暗黙的チャレンジはインスタンスの 22.9% で効果的であることが明らかになりました。
ユーザー調査では、明示的な課題では人間が LLM よりも優れたパフォーマンスを示し、当社の手法が実際に適用できることが検証されています (成功率 78% 対 22%)。
私たちのフレームワークは、多くの研究参加者がタスクを完了するために LLM を使用していることを予期せず明らかにし、AI 詐欺師と人間による AI ツールの誤用の両方を検出する有効性を実証しました。
この研究は、一か八かの会話における信頼性の高いリアルタイム LLM 検出方法に対する重要なニーズに対処します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated an alarming ability to impersonate humans in conversation, raising concerns about their potential misuse in scams and deception. Humans have a right to know if they are conversing to an LLM. We evaluate text-based prompts designed as challenges to expose LLM imposters in real-time. To this end we compile and release an open-source benchmark dataset that includes ‘implicit challenges’ that exploit an LLM’s instruction-following mechanism to cause role deviation, and ‘exlicit challenges’ that test an LLM’s ability to perform simple tasks typically easy for humans but difficult for LLMs. Our evaluation of 9 leading models from the LMSYS leaderboard revealed that explicit challenges successfully detected LLMs in 78.4% of cases, while implicit challenges were effective in 22.9% of instances. User studies validate the real-world applicability of our methods, with humans outperforming LLMs on explicit challenges (78% vs 22% success rate). Our framework unexpectedly revealed that many study participants were using LLMs to complete tasks, demonstrating its effectiveness in detecting both AI impostors and human misuse of AI tools. This work addresses the critical need for reliable, real-time LLM detection methods in high-stakes conversations.

arxiv情報

著者 Gilad Gressel,Rahul Pankajakshan,Yisroel Mirsky
発行日 2024-12-20 12:25:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク