The NTNU System at the S&I Challenge 2025 SLA Open Track

要約

音声言語評価に関する最近の研究ライン(SLA)は、BertやWAV2VEC 2.0(W2V)などのニューラルモデルを採用して、言語および音響モダリティ全体の話す習熟度を評価しています。
両方のモデルは、口頭能力に関連する機能を効果的にキャプチャしますが、それぞれがモダリティ固有の制限を示しています。
BERTベースの方法は、SLAの韻律的および音声的キューをキャプチャできないことが多いASR転写産物に依存しています。
対照的に、W2Vベースの方法は、音響機能のモデリングに優れていますが、セマンティックな解釈可能性がありません。
これらの制限を克服するために、スコアフュージョン戦略を通じてW2VをPHI-4マルチモーダル大手言語モデル(MLLM)を統合するシステムを提案します。
提案されたシステムは、Speak&Import Challenge 2025の公式テストセットで0.375のルート平均平方根誤差(RMSE)を達成し、競争で2位を獲得します。
比較のために、トップランク、3位、および公式のベースラインシステムのRMSは、それぞれ0.364、0.384、および0.444です。

要約(オリジナル)

A recent line of research on spoken language assessment (SLA) employs neural models such as BERT and wav2vec 2.0 (W2V) to evaluate speaking proficiency across linguistic and acoustic modalities. Although both models effectively capture features relevant to oral competence, each exhibits modality-specific limitations. BERT-based methods rely on ASR transcripts, which often fail to capture prosodic and phonetic cues for SLA. In contrast, W2V-based methods excel at modeling acoustic features but lack semantic interpretability. To overcome these limitations, we propose a system that integrates W2V with Phi-4 multimodal large language model (MLLM) through a score fusion strategy. The proposed system achieves a root mean square error (RMSE) of 0.375 on the official test set of the Speak & Improve Challenge 2025, securing second place in the competition. For comparison, the RMSEs of the top-ranked, third-ranked, and official baseline systems are 0.364, 0.384, and 0.444, respectively.

arxiv情報

著者 Hong-Yun Lin,Tien-Hong Lo,Yu-Hsuan Fang,Jhen-Ke Lin,Chung-Chun Wang,Hao-Chien Lu,Berlin Chen
発行日 2025-06-05 15:09:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク