Benchmarking quantized LLaMa-based models on the Brazilian Secondary School Exam


大規模言語モデル (LLM) は、複雑な質問を作成したり、一連のステートメントを推論したりできるようにする、コンピューターとの対話方法における革命を表していますが、実行には専用のハードウェアが必要であるため、その使用は制限されています。
この研究では、量子化プロセスを経て家庭用ハードウェアで実行される 70 億および 130 億 LLaMA モデルに基づいて LLM のパフォーマンスを評価します。
これらのモデルの有効性を評価するために、ENEM (ブラジル国立中等学校試験) からの 1,006 問を含むデータベースを開発しました。
私たちの分析により、最もパフォーマンスの高いモデルは、ポルトガル語の質問の原文に対して約 46%、英語の翻訳に対して約 49% の精度を達成したことが明らかになりました。
AMD Ryzen 5 3600x プロセッサを搭載したマシンでクエリを処理するのに、平均して 70 億 LLM と 130 億 LLM はそれぞれ約 20 秒と 50 秒かかりました。


Although Large Language Models (LLMs) represent a revolution in the way we interact with computers, allowing the construction of complex questions and the ability to reason over a sequence of statements, their use is restricted due to the need for dedicated hardware for execution. In this study, we evaluate the performance of LLMs based on the 7 and 13 billion LLaMA models, subjected to a quantization process and run on home hardware. The models considered were Alpaca, Koala, and Vicuna. To evaluate the effectiveness of these models, we developed a database containing 1,006 questions from the ENEM (Brazilian National Secondary School Exam). Our analysis revealed that the best performing models achieved an accuracy of approximately 46% for the original texts of the Portuguese questions and 49% on their English translations. In addition, we evaluated the computational efficiency of the models by measuring the time required for execution. On average, the 7 and 13 billion LLMs took approximately 20 and 50 seconds, respectively, to process the queries on a machine equipped with an AMD Ryzen 5 3600x processor


著者 Matheus L. O. Santos,Cláudio E. C. Campelo
発行日 2023-09-21 13:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: 53-04, cs.AI, cs.CL, I.2.0 パーマリンク