要約
英語に関する質問と回答のコーパスであるELQAを紹介する。つのオンライン・フォーラムから収集された7万件以上の質問(英語学習者など)は、文法、意味、流暢さ、語源など幅広いトピックをカバーしている。回答には、英語の語彙や文法の一般的な特性に関する説明や、具体的な(正しい・正しくない)使用例に関する説明が含まれています。ほとんどのNLPデータセットとは異なり、このコーパスはメタ言語的である。そのため、NLUモデルのメタ言語的能力の調査や、言語学習領域における教育的応用を促進することができる。これを研究するために、我々はデータセット上で自由形式の質問応答タスクを定義し、メタ言語的な回答を生成する能力を分析するために、複数のLLM(大規模言語モデル)の評価を実施する。
要約(オリジナル)
We present ELQA, a corpus of questions and answers in and about the English language. Collected from two online forums, the >70k questions (from English learners and others) cover wide-ranging topics including grammar, meaning, fluency, and etymology. The answers include descriptions of general properties of English vocabulary and grammar as well as explanations about specific (correct and incorrect) usage examples. Unlike most NLP datasets, this corpus is metalinguistic — it consists of language about language. As such, it can facilitate investigations of the metalinguistic capabilities of NLU models, as well as educational applications in the language learning domain. To study this, we define a free-form question answering task on our dataset and conduct evaluations on multiple LLMs (Large Language Models) to analyze their capacity to generate metalinguistic answers.
arxiv情報
著者 | Shabnam Behzad,Keisuke Sakaguchi,Nathan Schneider,Amir Zeldes |
発行日 | 2023-07-03 17:42:36+00:00 |
arxivサイト | arxiv_id(pdf) |