TeXBLEU: Automatic Metric for Evaluate LaTeX Format


LaTeX は、科学、技術、数学、コンピューター サイエンスの特殊な形式の文書を作成するのに適しています。
言語モデルとともに LaTeX 形式の数式の使用が増加していますが、それらを評価するための適切な評価行列がありません。
この研究では、翻訳タスクで広く使用されている n-gram ベースの BLEU メトリクスに基づいて構築された、LaTeX 形式の数式を評価するためのメトリクスである TeXBLEU を提案します。
提案された TeXBLEU は、arXiv 紙データセットでトレーニングされた事前定義されたトークナイザーと、位置エンコーディングを備えた微調整された埋め込みモデルで構成されます。
TeXBLEU スコアは、BLUE の修正精度スコアを n グラムベースのトークンの類似性に置き換えることによって計算されました。
TeXBLEU は、1,000 データ ポイントの MathBridge データセット上で、BLEU、sacreBLEU、Rouge などの従来の評価指標と比較して、それぞれ 86\%、121\%、および 610\% の改善を示しました。
コードは https://github.com/KyuDan1/TeXBLEU で入手できます。


LaTeX is suitable for creating specially formatted documents in science, technology, mathematics, and computer science. Although the use of mathematical expressions in LaTeX format along with language models is increasing, there are no proper evaluation matrices to evaluate them. In this study, we propose TeXBLEU, a metric for evaluating mathematical expressions in the LaTeX format built on the n-gram-based BLEU metric widely used in translation tasks. The proposed TeXBLEU consists of a predefined tokenizer trained on the arXiv paper dataset and a fine-tuned embedding model with positional encoding. The TeXBLEU score was calculated by replacing BLUE’s modified precision score with the similarity of n-gram-based tokens. TeXBLEU showed improvements of 86\%, 121\%, and 610\% over traditional evaluation metrics, such as BLEU, sacreBLEU, and Rouge, respectively, on the MathBridge dataset with 1,000 data points. The code is available at https://github.com/KyuDan1/TeXBLEU.


著者 Kyudan Jung,Nam-Joon Kim,Hyongon Ryu,Sieun Hyeon,Seung-jun Lee,Hyeok-jae Lee
発行日 2024-09-13 04:22:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク