要約
最近、大規模言語モデル (LLM) はますます強力になり、自然言語での適切な指示を通じて大量のタスクを解決できるようになりました。
ただし、テストスイートの大部分は、指示が事実上のプロンプト言語である英語で書かれていることを前提としています。
コード インテリジェンスと問題解決は、最先端の LLM であっても依然として難しい課題です。
現在、英語以外の言語でのコード生成モデルの汎化力を測定するデータセットはありません。
この研究では、ルーマニア語で書かれた 2,642 の問題、C、C++、Python による 11,000 のソリューション、および各問題の包括的なテスト スイートで構成される競技プログラミング データセットである RoCode を紹介します。
RoCode の目的は、ルーマニア語/多言語テキストでトレーニングされた言語モデルのコード インテリジェンスを評価するためのベンチマークと、事前トレーニングされたルーマニア語モデルの微調整セットを提供することです。
私たちは、その結果と関連研究のレビューを通じて、英語以外の言語用のコード モデルを開発する必要性を主張します。
要約(オリジナル)
Recently, large language models (LLMs) have become increasingly powerful and have become capable of solving a plethora of tasks through proper instructions in natural language. However, the vast majority of testing suites assume that the instructions are written in English, the de facto prompting language. Code intelligence and problem solving still remain a difficult task, even for the most advanced LLMs. Currently, there are no datasets to measure the generalization power for code-generation models in a language other than English. In this work, we present RoCode, a competitive programming dataset, consisting of 2,642 problems written in Romanian, 11k solutions in C, C++ and Python and comprehensive testing suites for each problem. The purpose of RoCode is to provide a benchmark for evaluating the code intelligence of language models trained on Romanian / multilingual text as well as a fine-tuning set for pretrained Romanian models. Through our results and review of related works, we argue for the need to develop code models for languages other than English.
arxiv情報
著者 | Adrian Cosma,Bogdan Iordache,Paolo Rosso |
発行日 | 2024-02-20 18:32:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google