GAIA: a benchmark for General AI Assistants

要約

一般的な AI アシスタントのベンチマークである GAIA を紹介します。これが解決されれば、AI 研究におけるマイルストーンとなるでしょう。
GAIA は、推論、マルチモダリティの処理、Web ブラウジング、および一般的なツールの使用熟練度などの一連の基本的な能力を必要とする現実世界の質問を提案します。
GAIA の質問は、人間にとっては概念的に単純ですが、最先端の AI にとっては困難です。人間の回答者が 92\% を獲得したのに対し、プラグインを備えた GPT-4 では 15\% を獲得したことがわかります。
この顕著なパフォーマンスの差は、LLM が専門的なスキルを必要とするタスクで人間よりも優れているという最近の傾向とは対照的です。
法律とか化学とか。
GAIA の哲学は、人間にとってこれまで以上に困難なタスクをターゲットにすることを提案する AI ベンチマークの現在のトレンドとは異なります。
私たちは、汎用人工知能 (AGI) の出現は、そのような質問に対して平均的な人間と同様の堅牢性を示すシステムの能力にかかっていると仮定します。
GAIA の方法論を使用して、466 の質問とその回答を考案します。
https://huggingface.co/gaia-benchmark で利用できるリーダーボードを強化するために、質問のうち 300 件に対する回答を保持しながら質問を公開します。

要約(オリジナル)

We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92\% vs. 15\% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA’s philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system’s capability to exhibit similar robustness as the average human does on such questions. Using GAIA’s methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.

arxiv情報

著者 Grégoire Mialon,Clémentine Fourrier,Craig Swift,Thomas Wolf,Yann LeCun,Thomas Scialom
発行日 2023-11-21 20:34:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク