要約
数学は高度に専門化された領域であり、独自の一連の課題を抱えているため、自然言語処理に関する研究は限られています。
ただし、数学はさまざまな分野で使用されており、さまざまな分野での学際的な研究は、多くの場合、数学的概念の理解に依存しています。
他の分野から来た研究者を支援するために、私たちは圏論の分野に焦点を当てて、コンテキスト内で数学的概念を検索および定義するためのプロトタイプ システムを開発します。
このシステム Parmesan は、概念抽出、関係抽出、定義抽出、エンティティ リンクなどの自然言語処理コンポーネントに依存しています。
このシステムの開発において、我々は既存の手法を圏論領域に直接適用できないことを示し、システムは時間の経過とともに進化すると予想されますが、うまく機能するハイブリッド手法を提案します。
また、プロトタイプ システムを強化する 2 つのクリーンな数学コーパスも提供します。これらはそれぞれ雑誌記事と Wiki ページに基づいています。
コーパスには、依存関係ツリー、補題、品詞タグの注釈が付けられています。
要約(オリジナル)
Mathematics is a highly specialized domain with its own unique set of challenges that has seen limited study in natural language processing. However, mathematics is used in a wide variety of fields and multidisciplinary research in many different domains often relies on an understanding of mathematical concepts. To aid researchers coming from other fields, we develop a prototype system for searching for and defining mathematical concepts in context, focusing on the field of category theory. This system, Parmesan, depends on natural language processing components including concept extraction, relation extraction, definition extraction, and entity linking. In developing this system, we show that existing techniques cannot be applied directly to the category theory domain, and suggest hybrid techniques that do perform well, though we expect the system to evolve over time. We also provide two cleaned mathematical corpora that power the prototype system, which are based on journal articles and wiki pages, respectively. The corpora have been annotated with dependency trees, lemmas, and part-of-speech tags.
arxiv情報
著者 | Jacob Collard,Valeria de Paiva,Eswaran Subrahmanian |
発行日 | 2023-07-13 11:55:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google