要約
言語モデル (LM) の最近の研究に共通する傾向の 1 つは、評価に標準化されたテストを使用することです。
しかし、ポルトガル語は世界で 5 番目に話されている言語であるにもかかわらず、そのような評価はほとんど行われていません。
これは主に、コミュニティがポルトガル語で評価を実行するために利用できる高品質のデータセットが不足していることが原因です。
このギャップに対処するために、ブラジルの 2 つの主要大学である UNICAMP と USP の入学試験のデータセットである、Brazilian Leading Universities Adoption eXams (BLUEX) を導入します。
データセットには、さまざまな主題に関する NLP モデルのパフォーマンスを評価するための注釈付きメタデータが含まれています。
さらに、BLUEX には、2023 年の時点で多くの人気のある LM のトレーニング データに含まれる可能性が低い、最近実施された試験のコレクションが含まれています。データセットには、各質問内の画像の位置を示す注釈も付けられており、試験を進めるための貴重なリソースを提供します。
マルチモーダル言語の理解と推論における最先端の技術。
私たちは、BLUEX の作成と特性について説明し、最先端の LM を使用した実験を通じてベンチマークを確立し、ポルトガル語での自然言語理解と推論における最先端の技術を進歩させる可能性を実証します。
データと関連コードは https://github.com/Portuguese-Benchmark-Datasets/BLUEX にあります。
要約(オリジナル)
One common trend in recent studies of language models (LMs) is the use of standardized tests for evaluation. However, despite being the fifth most spoken language worldwide, few such evaluations have been conducted in Portuguese. This is mainly due to the lack of high-quality datasets available to the community for carrying out evaluations in Portuguese. To address this gap, we introduce the Brazilian Leading Universities Entrance eXams (BLUEX), a dataset of entrance exams from the two leading universities in Brazil: UNICAMP and USP. The dataset includes annotated metadata for evaluating the performance of NLP models on a variety of subjects. Furthermore, BLUEX includes a collection of recently administered exams that are unlikely to be included in the training data of many popular LMs as of 2023. The dataset is also annotated to indicate the position of images in each question, providing a valuable resource for advancing the state-of-the-art in multimodal language understanding and reasoning. We describe the creation and characteristics of BLUEX and establish a benchmark through experiments with state-of-the-art LMs, demonstrating its potential for advancing the state-of-the-art in natural language understanding and reasoning in Portuguese. The data and relevant code can be found at https://github.com/Portuguese-Benchmark-Datasets/BLUEX
arxiv情報
著者 | Thales Sales Almeida,Thiago Laitz,Giovana K. Bonás,Rodrigo Nogueira |
発行日 | 2023-07-11 16:25:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google