FLIP Reasoning Challenge

要約

過去数年間、人工知能(AI)の進歩は、AIが画像の分類やテキストライティングなどの多くの認識や生成タスクをどのように解決できるかを実証してきましたが、推論は依然として課題です。
このペーパーでは、Idenaブロックチェーン上の人間の検証タスクに基づいてAI推論機能を評価するためのベンチマークであるFlip Datasetを紹介します。
フリップの課題は、ユーザーに4つの画像の2つの注文を提示し、論理的に一貫したエグゼーションを識別する必要があります。
順次推論、視覚的なストーリーテリング、および常識を強調することにより、FlipはマルチモーダルAIシステムのユニークなテストベッドを提供します。
私たちの実験は、最先端のモデルを評価し、ビジョン言語モデル(VLM)と大規模な言語モデル(LLM)の両方を活用します。
結果は、95.3%の人間の性能と比較して、ゼロショット設定で、最高のオープンソースとクローズドソースのモデルでさえ、それぞれゼロショット設定で75.5%と77.9%の最大精度を達成することを明らかにしています。
キャプションモデルは、画像のテキストの説明を提供することにより推論モデルを支援し、RAW画像を直接使用する場合よりも良い結果をもたらします。Gemini1.5Proの69.6%対75.2%。
アンサンブルの15モデルからの予測を組み合わせると、精度が85.2%に増加します。
これらの調査結果は、既存の推論モデルの制限と、Flipなどの堅牢なマルチモーダルベンチマークの必要性を強調しています。
完全なコードベースとデータセットは、https://github.com/aplesner/flip-rasining-challengeで入手できます。

要約(オリジナル)

Over the past years, advances in artificial intelligence (AI) have demonstrated how AI can solve many perception and generation tasks, such as image classification and text writing, yet reasoning remains a challenge. This paper introduces the FLIP dataset, a benchmark for evaluating AI reasoning capabilities based on human verification tasks on the Idena blockchain. FLIP challenges present users with two orderings of 4 images, requiring them to identify the logically coherent one. By emphasizing sequential reasoning, visual storytelling, and common sense, FLIP provides a unique testbed for multimodal AI systems. Our experiments evaluate state-of-the-art models, leveraging both vision-language models (VLMs) and large language models (LLMs). Results reveal that even the best open-sourced and closed-sourced models achieve maximum accuracies of 75.5% and 77.9%, respectively, in zero-shot settings, compared to human performance of 95.3%. Captioning models aid reasoning models by providing text descriptions of images, yielding better results than when using the raw images directly, 69.6% vs. 75.2% for Gemini 1.5 Pro. Combining the predictions from 15 models in an ensemble increases the accuracy to 85.2%. These findings highlight the limitations of existing reasoning models and the need for robust multimodal benchmarks like FLIP. The full codebase and dataset will be available at https://github.com/aplesner/FLIP-Reasoning-Challenge.

arxiv情報

著者 Andreas Plesner,Turlan Kuzhagaliyev,Roger Wattenhofer
発行日 2025-04-16 17:07:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク