Speak & Improve Challenge 2025: Tasks and Baseline Systems

要約

この文書では、ISCA SLaTE 2025 ワークショップに関連する課題である「Speak & Improvement Challenge 2025: 話し言葉の評価とフィードバック」について説明します。
この課題の目標は、基礎となるテクノロジーと言語学習フィードバックの両方に関連するタスクを伴う、音声言語の評価とフィードバックに関する研究を進めることです。
このチャレンジに関連して、Speak & Improvement (S&I) コーパス 2025 がプレリリースされています。これは、Speak & Improvement 学習プラットフォームでの公開 (自発的) スピーキング テストから収集された、全体的なスコアと言語誤りの注釈を備えた L2 学習者の英語データのデータセットです。

このコーパスは、第二言語の英語学習者からの総合的なスコアを含む 340 時間の音声データと、手動による転写とエラー ラベルを含む 60 時間のサブセットで構成されています。
このチャレンジには、自動音声認識 (ASR)、音声言語評価 (SLA)、音声文法的誤り訂正 (SGEC)、および音声文法的誤り訂正フィードバック (SGECF) の 4 つの共有タスクがあります。
これらのタスクにはそれぞれ、所定のモデルとデータ ソースのセットを使用できるクローズド トラックと、任意のパブリック リソースを使用できるオープン トラックがあります。
チャレンジ参加者は 1 つ以上のタスクを実行できます。
このペーパーでは、チャレンジ、S&I コーパス 2025、およびチャレンジ用にリリースされたベースライン システムについて説明します。

要約(オリジナル)

This paper presents the ‘Speak & Improve Challenge 2025: Spoken Language Assessment and Feedback’ — a challenge associated with the ISCA SLaTE 2025 Workshop. The goal of the challenge is to advance research on spoken language assessment and feedback, with tasks associated with both the underlying technology and language learning feedback. Linked with the challenge, the Speak & Improve (S&I) Corpus 2025 is being pre-released, a dataset of L2 learner English data with holistic scores and language error annotation, collected from open (spontaneous) speaking tests on the Speak & Improve learning platform. The corpus consists of 340 hours of audio data from second language English learners with holistic scores, and a 60-hour subset with manual transcriptions and error labels. The Challenge has four shared tasks: Automatic Speech Recognition (ASR), Spoken Language Assessment (SLA), Spoken Grammatical Error Correction (SGEC), and Spoken Grammatical Error Correction Feedback (SGECF). Each of these tasks has a closed track where a predetermined set of models and data sources are allowed to be used, and an open track where any public resource may be used. Challenge participants may do one or more of the tasks. This paper describes the challenge, the S&I Corpus 2025, and the baseline systems released for the Challenge.

arxiv情報

著者 Mengjie Qian,Kate Knill,Stefano Banno,Siyuan Tang,Penny Karanasou,Mark J. F. Gales,Diane Nicholls
発行日 2024-12-16 17:05:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク