Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

要約

Captchasは、実際のアプリケーションにWebエージェントを展開するための重要なボトルネックであり、エンドツーエンドの自動化タスクの完了をブロックすることがよくあります。
現代のマルチモーダルLLMエージェントは、静的な知覚タスクで印象的なパフォーマンスを実証していますが、Captchasのようなインタラクティブでマルチステップの推論の課題を処理する能力はほとんどテストされていません。
このギャップに対処するために、多様で動的なキャプチャパズルを通じてMLLMを搭載したエージェントの視覚的推論と相互作用機能を評価するために特別に設計された最初のWebベースのベンチマークとプラットフォームであるOpen CaptChaworldを紹介します。
私たちのベンチマークは、合計225のキャプチャタイプにまたがっており、合計225のキャプチャが提案されています。これは、各パズルを解決するために必要な認知および運動ステップの数を定量化するCAPTCHA推論の深さです。
実験結果は、人間が一貫してほぼ完璧なスコアを達成し、最先端のMLLMエージェントが大幅に苦労し、ブラウザ使用のOpenai-O3で最大40.0%、人間レベルのパフォーマンスをはるかに下回る93.3%で成功率を達成することを示しています。
これは、現在のマルチモーダルエージェントの限界を診断し、より堅牢なマルチモーダル推論システムの開発を導くための重要なベンチマークとしてOpen CaptChaworldを強調しています。
コードとデータは、このHTTPS URLで利用できます。

要約(オリジナル)

CAPTCHAs have been a critical bottleneck for deploying web agents in real-world applications, often blocking them from completing end-to-end automation tasks. While modern multimodal LLM agents have demonstrated impressive performance in static perception tasks, their ability to handle interactive, multi-step reasoning challenges like CAPTCHAs is largely untested. To address this gap, we introduce Open CaptchaWorld, the first web-based benchmark and platform specifically designed to evaluate the visual reasoning and interaction capabilities of MLLM-powered agents through diverse and dynamic CAPTCHA puzzles. Our benchmark spans 20 modern CAPTCHA types, totaling 225 CAPTCHAs, annotated with a new metric we propose: CAPTCHA Reasoning Depth, which quantifies the number of cognitive and motor steps required to solve each puzzle. Experimental results show that humans consistently achieve near-perfect scores, state-of-the-art MLLM agents struggle significantly, with success rates at most 40.0% by Browser-Use Openai-o3, far below human-level performance, 93.3%. This highlights Open CaptchaWorld as a vital benchmark for diagnosing the limits of current multimodal agents and guiding the development of more robust multimodal reasoning systems. Code and Data are available at this https URL.

arxiv情報

著者 Yaxin Luo,Zhaoyi Li,Jiacheng Liu,Jiacheng Cui,Xiaohan Zhao,Zhiqiang Shen
発行日 2025-05-30 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク