要約
タイトル:連続ベクトル空間における数式の意味表現
要約:
– STEM文献の大部分を数式が占めているが、数式の意味表現を求めることは依然として課題である。
– 数式は正確であり、文字の微妙な変化で意味が大きく変わるため、自然言語の場合と同様の手法がうまく機能しない。
– 本研究では、数式を連続ベクトル空間に表現するアプローチを説明する。
– 同定視覚的には異なるが数学的に等価な式を用いて、シーケンス・ツー・シーケンスのエンコーダを使用して、ベクトル表現(またはエンベッディング)を生成する。
– オートエンコーダと比較して、前者の方が数学的な意味をよりよく捉えることを示す。
– 最後に、将来の研究を加速するために、等価な超越および代数的式のコーパスを公開する。
要約(オリジナル)
Mathematical notation makes up a large portion of STEM literature, yet, finding semantic representations for formulae remains a challenging problem. Because mathematical notation is precise, and its meaning changes significantly with small character shifts, the methods that work for natural text do not necessarily work well for mathematical expressions. In this work, we describe an approach for representing mathematical expressions in a continuous vector space. We use the encoder of a sequence-to-sequence architecture, trained on visually different but mathematically equivalent expressions, to generate vector representations (or embeddings). We compare this approach with an autoencoder and show that the former is better at capturing mathematical semantics. Finally, to expedite future research, we publish a corpus of equivalent transcendental and algebraic expression pairs.
arxiv情報
著者 | Neeraj Gangwar,Nickvash Kani |
発行日 | 2023-03-31 23:00:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI