Syntactic Complexity Identification, Measurement, and Reduction Through Controlled Syntactic Simplification

要約

タイトル:制御された構文簡素化による構文複雑度の特定、計測、および削減

要約:
– テキスト簡素化は、自然言語処理(NLP)の分野の1つで、読みやすさを向上させるために単純化された形でテキストを理解する機会を提供します。
– しかし、複合文や複雑な文章形式である非構造化テキストから知識を理解し検索するのは常に難しいため、複雑度を抑えたテキストが望まれています。
– この研究では、文中に含まれる事実に基づく制御された単純化を提案しています。
– 複雑な文を単純な構造で可能なドメイン事実のセットの形で抽出できるよう、文を分割し再表現する古典的な構文依存ベースのアプローチを提示しています。
– さらに、文の構文的複雑度(SC)の特定と計測方法を紹介し、制御された構文簡素化を通じて削減するアルゴリズムを提供しています。
– 最後に、GPT3を用いたデータセットの再注釈実験も行われ、改善されたコーパスがリソースとして公開される予定です。
– この研究は、WSDM-2023カンファレンスの国際ワークショップである「Learning with Knowledge Graphs(IWLKG)」で発表されました。
– コードとデータは www.github.com/sallmanm/SynSim で入手可能です。

要約(オリジナル)

Text simplification is one of the domains in Natural Language Processing (NLP) that offers an opportunity to understand the text in a simplified manner for exploration. However, it is always hard to understand and retrieve knowledge from unstructured text, which is usually in the form of compound and complex sentences. There are state-of-the-art neural network-based methods to simplify the sentences for improved readability while replacing words with plain English substitutes and summarising the sentences and paragraphs. In the Knowledge Graph (KG) creation process from unstructured text, summarising long sentences and substituting words is undesirable since this may lead to information loss. However, KG creation from text requires the extraction of all possible facts (triples) with the same mentions as in the text. In this work, we propose a controlled simplification based on the factual information in a sentence, i.e., triple. We present a classical syntactic dependency-based approach to split and rephrase a compound and complex sentence into a set of simplified sentences. This simplification process will retain the original wording with a simple structure of possible domain facts in each sentence, i.e., triples. The paper also introduces an algorithm to identify and measure a sentence’s syntactic complexity (SC), followed by reduction through a controlled syntactic simplification process. Last, an experiment for a dataset re-annotation is also conducted through GPT3; we aim to publish this refined corpus as a resource. This work is accepted and presented in International workshop on Learning with Knowledge Graphs (IWLKG) at WSDM-2023 Conference. The code and data is available at www.github.com/sallmanm/SynSim.

arxiv情報

著者 Muhammad Salman,Armin Haller,Sergio J. Rodríguez Méndez
発行日 2023-04-16 13:13:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR パーマリンク