Evaluating the Symbol Binding Ability of Large Language Models for Multiple-Choice Questions in Vietnamese General Education

要約

この論文では、ゼロショット、ワンショット、および少数ショットの設定で多肢選択質問応答 (MCQA) タスクの多肢選択記号バインディング (MCSB) を実行する大規模言語モデル (LLM) の機能を評価します。
私たちはベトナム語に焦点を当てており、英語よりも困難な MCQA データセットが少ないです。
2 つの既存のデータセット、ViMMRC 1.0 と ViMMRC 2.0 は文献に焦点を当てています。
ベトナムの自然言語処理 (NLP) に関する最近の研究は、ChatGPT を評価するために、2019 年から 2023 年までのベトナム国立高校卒業試験 (VNHSGE) に焦点を当てています。
ただし、これらの研究は主に、ChatGPT が VNHSGE を段階的に解決する方法に焦点を当てています。
私たちは、数学、物理学、化学、生物学の LaTeX 式を入力するための構造化されたガイドラインを提供することで、斬新で高品質なデータセットを作成することを目指しています。
このデータセットは厳密な LaTeX スタイルで型付けされているため、LLM および小規模言語モデル (LM) の MCSB 能力を評価するために使用できます。
私たちは、質問のコンテキストを考慮して、質問に対する最も可能性の高い回答である文字 (A、B、C、または D) を予測することに重点を置いています。
ViMMRC 1.0 および ViMMRC 2.0 ベンチマークでの 6 つのよく知られた LLM、つまり BLOOMZ-7.1B-MT、LLaMA-2-7B、LLaMA-2-70B、GPT-3、GPT-3.5、および GPT-4.0 の評価
そして私たちが提案したデータセットは、ベトナム人に対するLLMのMCSB能力に関して有望な結果を示しています。
データセットは研究目的でのみ利用できます。

要約(オリジナル)

In this paper, we evaluate the ability of large language models (LLMs) to perform multiple choice symbol binding (MCSB) for multiple choice question answering (MCQA) tasks in zero-shot, one-shot, and few-shot settings. We focus on Vietnamese, with fewer challenging MCQA datasets than in English. The two existing datasets, ViMMRC 1.0 and ViMMRC 2.0, focus on literature. Recent research in Vietnamese natural language processing (NLP) has focused on the Vietnamese National High School Graduation Examination (VNHSGE) from 2019 to 2023 to evaluate ChatGPT. However, these studies have mainly focused on how ChatGPT solves the VNHSGE step by step. We aim to create a novel and high-quality dataset by providing structured guidelines for typing LaTeX formulas for mathematics, physics, chemistry, and biology. This dataset can be used to evaluate the MCSB ability of LLMs and smaller language models (LMs) because it is typed in a strict LaTeX style. We focus on predicting the character (A, B, C, or D) that is the most likely answer to a question, given the context of the question. Our evaluation of six well-known LLMs, namely BLOOMZ-7.1B-MT, LLaMA-2-7B, LLaMA-2-70B, GPT-3, GPT-3.5, and GPT-4.0, on the ViMMRC 1.0 and ViMMRC 2.0 benchmarks and our proposed dataset shows promising results on the MCSB ability of LLMs for Vietnamese. The dataset is available for research purposes only.

arxiv情報

著者 Duc-Vu Nguyen,Quoc-Nam Nguyen
発行日 2023-10-18 15:48:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク