MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability

要約

数学ビデオの字幕など、テキストベースの文書における数式の可読性を向上させることは重要な課題です。
これを実現するには、数式をコンパイルされた数式に変換する必要があります。
たとえば、自動音声認識による音声表現「x はマイナス b プラスまたはマイナス b の平方根、二乗マイナス 4 a c、すべて 2 a に等しい」は、コンパイルされた式 $x = \frac として表示すると、より理解しやすくなります。
{-b \pm \sqrt{b^2 – 4ac}}{2a}$。
数学的な音声文章をコンパイルされた数式に変換するには、音声文章を LaTeX 数式に変換し、LaTeX 数式をコンパイルされた数式に変換する 2 つのプロセスが必要です。
後者は、LaTeX エンジンを使用して管理できます。
ただし、前者を効果的に行う方法はありません。
言語モデルを使用してこれを解決しようとしても、音声文とそれを訓練するための LaTeX 式の間にペアになったデータはありません。
この論文では、数学的な音声文を LaTeX 式に変換するための最初の大規模なデータセットである MathBridge を紹介します。
MathBridge は、約 2,300 万の LaTeX 式と、対応する数学的な音声文のペアで構成されています。
提案されたデータによる微調整を含む包括的な評価を通じて、MathBridge が数学的な音声文から LaTeX 式に変換する事前トレーニング済み言語モデルの機能を大幅に強化していることがわかりました。
具体的には、T5-large モデルでは、sacreBLEU スコアが 4.77 から 46.8 に増加し、大幅な向上が示されました。

要約(オリジナル)

Improving the readability of mathematical expressions in text-based document such as subtitle of mathematical video, is an significant task. To achieve this, mathematical expressions should be convert to compiled formulas. For instance, the spoken expression “x equals minus b plus or minus the square root of b squared minus four a c, all over two a” from automatic speech recognition is more readily comprehensible when displayed as a compiled formula $x = \frac{-b \pm \sqrt{b^2 – 4ac}}{2a}$. To convert mathematical spoken sentences to compiled formulas, two processes are required: spoken sentences are converted into LaTeX formulas, and LaTeX formulas are converted into compiled formulas. The latter can be managed by using LaTeX engines. However, there is no way to do the former effectively. Even if we try to solve this using language models, there is no paired data between spoken sentences and LaTeX formulas to train it. In this paper, we introduce MathBridge, the first extensive dataset for translating mathematical spoken sentences into LaTeX formulas. MathBridge comprises approximately 23 million LaTeX formulas paired with the corresponding mathematical spoken sentences. Through comprehensive evaluations, including fine-tuning with proposed data, we discovered that MathBridge significantly enhances the capabilities of pretrained language models for converting to LaTeX formulas from mathematical spoken sentences. Specifically, for the T5-large model, the sacreBLEU score increased from 4.77 to 46.8, demonstrating substantial enhancement.

arxiv情報

著者 Kyudan Jung,Sieun Hyeon,Jeong Youn Kwon,Nam-Joon Kim,Hyun Gon Ryu,Hyuk-Jae Lee,Jaeyoung Do
発行日 2024-08-16 09:54:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク