MathSpeech: Leveraging Small LMs for Accurate Conversion in Mathematical Speech-to-Formula

要約

数学の講義や研究プレゼンテーションなどのさまざまな学術的および専門的な設定では、数学的表現を口頭で伝える必要があることがよくあります。
ただし、視覚を伴わずに数学的な表現を声に出して読むことは、特に言語の障壁のために聴覚障害者または字幕に依存している人にとっては、理解を大幅に妨げる可能性があります。
たとえば、プレゼンターがEulerの式を読むと、現在の自動音声認識(ASR)モデルが冗長性とエラーが発生しやすいテキストの説明を生成することがよくあります(例えば、Xのパワーへのeは、XのコサインとI $ \ TextIT {Side} $のxのコサインに等しくなります)。
I \ sin(x)$)。これは、明確な理解とコミュニケーションを妨げます。
この問題に対処するために、ASRモデルを小言語モデル(SLM)と統合する新しいパイプラインであるMathSpeechを紹介し、数学式のエラーを修正し、音声式を構造化された$ \ latex {} $表現に正確に変換します。
講義録音から派生した新しいデータセットで評価されたMathSpeechは、$ \ laTex {} $の生成機能を主要な商用大型言語モデル(LLM)に匹敵させ、わずか120mパラメーターの微調整された小言語モデルを活用します。
具体的には、$ \ latex {} $翻訳のCER、ブルー、およびルージュのスコアに関して、MathSpeechはGPT-4Oと比較して有意に優れた機能を示しました。
CERの0.390から0.298に減少し、GPT-4Oと比較してより高いルージュ/BLEUスコアが観察されました。

要約(オリジナル)

In various academic and professional settings, such as mathematics lectures or research presentations, it is often necessary to convey mathematical expressions orally. However, reading mathematical expressions aloud without accompanying visuals can significantly hinder comprehension, especially for those who are hearing-impaired or rely on subtitles due to language barriers. For instance, when a presenter reads Euler’s Formula, current Automatic Speech Recognition (ASR) models often produce a verbose and error-prone textual description (e.g., e to the power of i x equals cosine of x plus i $\textit{side}$ of x), instead of the concise $\LaTeX{}$ format (i.e., $ e^{ix} = \cos(x) + i\sin(x) $), which hampers clear understanding and communication. To address this issue, we introduce MathSpeech, a novel pipeline that integrates ASR models with small Language Models (sLMs) to correct errors in mathematical expressions and accurately convert spoken expressions into structured $\LaTeX{}$ representations. Evaluated on a new dataset derived from lecture recordings, MathSpeech demonstrates $\LaTeX{}$ generation capabilities comparable to leading commercial Large Language Models (LLMs), while leveraging fine-tuned small language models of only 120M parameters. Specifically, in terms of CER, BLEU, and ROUGE scores for $\LaTeX{}$ translation, MathSpeech demonstrated significantly superior capabilities compared to GPT-4o. We observed a decrease in CER from 0.390 to 0.298, and higher ROUGE/BLEU scores compared to GPT-4o.

arxiv情報

著者 Sieun Hyeon,Kyudan Jung,Jaehee Won,Nam-Joon Kim,Hyun Gon Ryu,Hyuk-Jae Lee,Jaeyoung Do
発行日 2025-04-11 04:17:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク