Reactor Mk.1 performances: MMLU, HumanEval and BBH test results

要約

この論文では、ベンチマーク プロセス分析を通じて、ARC の主力大規模言語モデルである Reactor Mk.1 のパフォーマンス結果を示します。
このモデルは Lychee AI エンジンを利用しており、1,000 億未満のパラメーターを保有しているため、効率と有効性の組み合わせが得られます。
Reactor Mk.1 は GPT-4o、Claude Opus、Llama 3 などのモデルを上回り、MMLU データセットで 92%、HumanEval データセットで 91%、BBH データセットで 88% のスコアを達成しました。
難しい業務の管理と推論の両方に優れており、現在の最先端のAI技術において有力なAIソリューションとして確立されています。

要約(オリジナル)

The paper presents the performance results of Reactor Mk.1, ARCs flagship large language model, through a benchmarking process analysis. The model utilizes the Lychee AI engine and possesses less than 100 billion parameters, resulting in a combination of efficiency and potency. The Reactor Mk.1 outperformed models such as GPT-4o, Claude Opus, and Llama 3, with achieved scores of 92% on the MMLU dataset, 91% on HumanEval dataset, and 88% on BBH dataset. It excels in both managing difficult jobs and reasoning, establishing as a prominent AI solution in the present cutting-edge AI technology.

arxiv情報

著者 TJ Dunham,Henry Syahputra
発行日 2024-07-26 08:03:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク