MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability

要約

テキスト形式で数式を含む文章を理解することは、大きな課題となります。
これに対処するには、これらの式をコンパイルされた式に変換することの重要性が強調されます。
たとえば、自動音声認識 (ASR) の式「x はマイナス b プラスまたはマイナス b の平方根、マイナス 4 a c、すべて 2 a に等しい」は、コンパイルされた数式 $x = として表示すると、より理解しやすくなります。
\frac{-b \pm \sqrt{b^2 – 4ac}}{2a}$。
テキストから数式への変換システムを開発するには、プロセスをテキストから LaTeX への変換と LaTeX から数式への変換に分割し、後者はさまざまな既存の LaTeX エンジンによって管理されます。
ただし、前者のアプローチは、テキストと LaTeX のペアデータが非常に不足しているために著しく妨げられており、この分野では大きな課題となっています。
これに関連して、テキストから LaTeX への翻訳に関する将来の研究のための堅牢なベースラインを確立するために、数学的な音声表現を LaTeX に翻訳するための最初の大規模なデータセットである MathBridge を紹介します。
MathBridge は、約 2,300 万の LaTeX 式と、対応する音声英語表現の組み合わせで構成されています。
データによる微調整やテストを含む包括的な評価を通じて、MathBridge がテキストから LaTeX への翻訳用の事前トレーニング済み言語モデルの機能を大幅に強化していることがわかりました。
具体的には、T5-large モデルでは、sacreBLEU スコアが 4.77 から 46.8 に増加し、大幅な向上が示されました。
私たちの調査結果は、特にテキストから LaTeX への変換評価に新しい指標が必要であることを示しています。

要約(オリジナル)

Understanding sentences that contain mathematical expressions in text form poses significant challenges. To address this, the importance of converting these expressions into a compiled formula is highlighted. For instance, the expression “x equals minus b plus or minus the square root of b squared minus four a c, all over two a” from automatic speech recognition (ASR) is more readily comprehensible when displayed as a compiled formula $x = \frac{-b \pm \sqrt{b^2 – 4ac}}{2a}$. To develop a text-to-formula conversion system, we can break down the process into text-to-LaTeX and LaTeX-to-formula conversions, with the latter managed by various existing LaTeX engines. However, the former approach has been notably hindered by the severe scarcity of text-to-LaTeX paired data, which presents a significant challenge in this field. In this context, we introduce MathBridge, the first extensive dataset for translating mathematical spoken expressions into LaTeX, to establish a robust baseline for future research on text-to-LaTeX translation. MathBridge comprises approximately 23 million LaTeX formulas paired with the corresponding spoken English expressions. Through comprehensive evaluations, including fine-tuning and testing with data, we discovered that MathBridge significantly enhances the capabilities of pretrained language models for text-to-LaTeX translation. Specifically, for the T5-large model, the sacreBLEU score increased from 4.77 to 46.8, demonstrating substantial enhancement. Our findings indicate the need for a new metric, specifically for text-to-LaTeX conversion evaluations.

arxiv情報

著者 Kyudan Jung,Sieun Hyeon,Jeong Youn Kwon,Nam-Joon Kim,Hyun Gon Ryu,Hyuk-Jae Lee,Jaeyoung Do
発行日 2024-08-15 04:51:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク