LLMeBench: A Flexible Framework for Accelerating LLMs Benchmarking

要約

最近の大規模言語モデル (LLM) の開発と成功により、さまざまな言語での多様な NLP タスクにわたるパフォーマンスの評価が必要になっています。
いくつかのフレームワークが開発され、公開されていますが、特定のタスクやデータセットに対するそのカスタマイズ機能は、さまざまなユーザーにとって複雑であることがよくあります。
この研究では、LLMeBench フレームワークを紹介します。
当初は、OpenAI の GPT および BLOOM モデルを使用してアラビア語 NLP タスクを評価するために開発されました。
言語に関係なく、あらゆる NLP タスクとモデルに合わせてシームレスにカスタマイズできます。
このフレームワークには、ゼロショットおよび数ショットの学習設定も備えています。
新しいカスタム データセットは 10 分以内に追加でき、ユーザーは独自のモデル API キーを使用して現在のタスクを評価できます。
開発されたフレームワークは、90 の実験セットアップ内で公開されている 53 のデータセットを使用し、約 296,000 のデータ ポイントを含む 31 の固有の NLP タスクですでにテストされています。
コミュニティ用のフレームワークをオープンソース化する予定です (https://github.com/qcri/LLMeBench/)。
フレームワークをデモンストレーションするビデオはオンラインで入手できます (https://youtu.be/FkQn4UjYA0s)。

要約(オリジナル)

The recent development and success of Large Language Models (LLMs) necessitate an evaluation of their performance across diverse NLP tasks in different languages. Although several frameworks have been developed and made publicly available, their customization capabilities for specific tasks and datasets are often complex for different users. In this study, we introduce the LLMeBench framework. Initially developed to evaluate Arabic NLP tasks using OpenAI’s GPT and BLOOM models; it can be seamlessly customized for any NLP task and model, regardless of language. The framework also features zero- and few-shot learning settings. A new custom dataset can be added in less than 10 minutes, and users can use their own model API keys to evaluate the task at hand. The developed framework has been already tested on 31 unique NLP tasks using 53 publicly available datasets within 90 experimental setups, involving approximately 296K data points. We plan to open-source the framework for the community (https://github.com/qcri/LLMeBench/). A video demonstrating the framework is available online (https://youtu.be/FkQn4UjYA0s).

arxiv情報

著者 Fahim Dalvi,Maram Hasanain,Sabri Boughorbel,Basel Mousi,Samir Abdaljalil,Nizi Nazar,Ahmed Abdelali,Shammur Absar Chowdhury,Hamdy Mubarak,Ahmed Ali,Majd Hawasly,Nadir Durrani,Firoj Alam
発行日 2023-08-09 13:22:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, F.2.2 パーマリンク