Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation Assessment

要約

大規模なマルチモーダルモデル(LMM)は、幅広いドメインで並外れたパフォーマンスを実証しています。
このホワイトペーパーでは、発音評価タスクにおけるその可能性を調査し、特にGPT-4O、特にGPT-4Oの生成的なトレーニングトランス変圧器(GPT)モデルの能力を評価することに特に焦点を当てています。
私たちの研究では、フィードバックの生成とスコアリングに重点を置いて、複数のレベルの粒度と寸法にわたって発音評価のために音声と音声を処理する能力を調査しています。
実験には、公開されているspeechocean762データセットを使用します。
評価は、マルチレベルのスコアリングと生成されたフィードバックの実用性の2つの重要な側面に焦点を当てています。
スコアリングの結果は、Speechocean762データセットで提供される手動スコアと比較されますが、フィードバックの品質は大手言語モデル(LLMS)を使用して評価されます。
この調査結果は、LMMを発音評価のための従来の方法と統合し、モデルの強みに関する洞察を提供し、さらなる改善のための領域を特定する有効性を強調しています。

要約(オリジナル)

Large Multimodal Models (LMMs) have demonstrated exceptional performance across a wide range of domains. This paper explores their potential in pronunciation assessment tasks, with a particular focus on evaluating the capabilities of the Generative Pre-trained Transformer (GPT) model, specifically GPT-4o. Our study investigates its ability to process speech and audio for pronunciation assessment across multiple levels of granularity and dimensions, with an emphasis on feedback generation and scoring. For our experiments, we use the publicly available Speechocean762 dataset. The evaluation focuses on two key aspects: multi-level scoring and the practicality of the generated feedback. Scoring results are compared against the manual scores provided in the Speechocean762 dataset, while feedback quality is assessed using Large Language Models (LLMs). The findings highlight the effectiveness of integrating LMMs with traditional methods for pronunciation assessment, offering insights into the model’s strengths and identifying areas for further improvement.

arxiv情報

著者 Ke Wang,Lei He,Kun Liu,Yan Deng,Wenning Wei,Sheng Zhao
発行日 2025-03-14 09:26:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク