Benchmarking quantized LLaMa-based models on the Brazilian Secondary School Exam

要約

大規模言語モデル (LLM) は、複雑な質問を作成したり、一連のステートメントを推論したりできるようにする、コンピューターとの対話方法における革命を表していますが、実行には専用のハードウェアが必要であるため、その使用は制限されています。
この研究では、量子化プロセスを経て家庭用ハードウェアで実行される 70 億および 130 億 LLaMA モデルに基づいて LLM のパフォーマンスを評価します。
モデルとしてはアルパカ、コアラ、ビクーニャが検討されました。
これらのモデルの有効性を評価するために、ENEM (ブラジル国立中等学校試験) からの 1,006 問を含むデータベースを開発しました。
私たちの分析により、最もパフォーマンスの高いモデルは、ポルトガル語の質問の原文に対して約 46%、英語の翻訳に対して約 49% の精度を達成したことが明らかになりました。
さらに、実行に必要な時間を測定することでモデルの計算効率を評価しました。
AMD Ryzen 5 3600x プロセッサを搭載したマシンでクエリを処理するのに、平均して 70 億 LLM と 130 億 LLM はそれぞれ約 20 秒と 50 秒かかりました。

要約(オリジナル)

Although Large Language Models (LLMs) represent a revolution in the way we interact with computers, allowing the construction of complex questions and the ability to reason over a sequence of statements, their use is restricted due to the need for dedicated hardware for execution. In this study, we evaluate the performance of LLMs based on the 7 and 13 billion LLaMA models, subjected to a quantization process and run on home hardware. The models considered were Alpaca, Koala, and Vicuna. To evaluate the effectiveness of these models, we developed a database containing 1,006 questions from the ENEM (Brazilian National Secondary School Exam). Our analysis revealed that the best performing models achieved an accuracy of approximately 46% for the original texts of the Portuguese questions and 49% on their English translations. In addition, we evaluated the computational efficiency of the models by measuring the time required for execution. On average, the 7 and 13 billion LLMs took approximately 20 and 50 seconds, respectively, to process the queries on a machine equipped with an AMD Ryzen 5 3600x processor

arxiv情報

著者 Matheus L. O. Santos,Cláudio E. C. Campelo
発行日 2023-09-21 13:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 53-04, cs.AI, cs.CL, I.2.0 パーマリンク