Discourse-Aware Text Simplification: From Complex Sentences to Linked Propositions

要約

複雑な構文を表す文は、文の長さと複雑さによって予測品質が低下する下流の自然言語処理アプリケーションにとって大きな障害となります。
Text Simplification (TS) のタスクにより、この状況が改善される可能性があります。
並べ替え、削除、分割などの一連の書き換え操作を使用して、処理しやすくするために文を変更することを目的としています。
最先端の構文 TS アプローチには、2 つの大きな欠点があります。1 つは、入力を変換するのではなく保持する傾向があるという非常に保守的なアプローチに従っていること、2 つ目は、テキストの凝集性を無視していることです。
ステートメントの本当の意味を推測するには、文全体に分散する必要があります。
これらの問題に対処するために、我々は、複雑な英語の文を、それが発生する意味論的文脈内で分割し、言い換える、談話認識型 TS アプローチを提案します。
節および句の非埋め込みメカニズムを使用する、言語に基づいた変換ステージに基づいて、複雑な文は、下流のアプリケーションで簡単に分析できる単純な標準構造を持つ短い発話に変換されます。
したがって、文の分割により、これまでほとんど検討されていなかった TS タスクに対処できます。
さらに、ソース文を自己完結型の最小意味単位のセットに分解することを目的として、この文脈で最小性の概念を導入します。
重要なコンテキスト情報が欠落しているために、入力がばらばらのステートメントのシーケンスに分解され、解釈が困難になるのを避けるために、分割された命題間に意味論的なコンテキストを階層構造と意味論的な関係の形で組み込みます。
このようにして、簡略化された文の上に意味層を置く複雑な主張の新しい表現につながる、最小限の命題の意味階層を生成します。

要約(オリジナル)

Sentences that present a complex syntax act as a major stumbling block for downstream Natural Language Processing applications whose predictive quality deteriorates with sentence length and complexity. The task of Text Simplification (TS) may remedy this situation. It aims to modify sentences in order to make them easier to process, using a set of rewriting operations, such as reordering, deletion, or splitting. State-of-the-art syntactic TS approaches suffer from two major drawbacks: first, they follow a very conservative approach in that they tend to retain the input rather than transforming it, and second, they ignore the cohesive nature of texts, where context spread across clauses or sentences is needed to infer the true meaning of a statement. To address these problems, we present a discourse-aware TS approach that splits and rephrases complex English sentences within the semantic context in which they occur. Based on a linguistically grounded transformation stage that uses clausal and phrasal disembedding mechanisms, complex sentences are transformed into shorter utterances with a simple canonical structure that can be easily analyzed by downstream applications. With sentence splitting, we thus address a TS task that has hardly been explored so far. Moreover, we introduce the notion of minimality in this context, as we aim to decompose source sentences into a set of self-contained minimal semantic units. To avoid breaking down the input into a disjointed sequence of statements that is difficult to interpret because important contextual information is missing, we incorporate the semantic context between the split propositions in the form of hierarchical structures and semantic relationships. In that way, we generate a semantic hierarchy of minimal propositions that leads to a novel representation of complex assertions that puts a semantic layer on top of the simplified sentences.

arxiv情報

著者 Christina Niklaus,Matthias Cetto,André Freitas,Siegfried Handschuh
発行日 2023-08-01 10:10:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク