Constituents Correspond to Word Sequence Patterns among Sentences with Equivalent Predicate-Argument Structures: Unsupervised Constituency Parsing by Span Matching

要約

教師なし構成要素解析は、対象となる文の構文単位 (つまり、構成要素) を形成する単語シーケンスを識別することです。
言語学者は、述語引数構造 (PAS) と等価な文のセットを評価することによって構成要素を特定します。そこでは、構成要素が頻繁に使用される単語シーケンスに対応していることがわかります。
しかし、このような情報は、多様な PAS を持つ文を観察して構成要素を識別する従来の解析手法では利用できません。
この研究では、\textbf{構成要素が PAS 相当文セットの単語シーケンス パターンに対応する}ことを経験的に検証します。
私たちは、単語シーケンス パターンを教師なし計算解析に初めて適用する、周波数ベースの手法 \emph{span-overlap} を提案します。
解析実験の結果、スパンオーバーラップパーサーは 10 言語中 8 言語で最先端のパーサーよりも優れたパフォーマンスを示しました。
さらに識別分析を行うと、スパンオーバーラップ法が構成要素を非構成要素から明確に分離できることが確認されます。
この結果は、単語シーケンス パターンの有用性を強調しています。
さらに、\textbf{参加者を表す構成要素はイベントを表す構成要素よりも頻度が高い}という多言語現象も発見しました。
この現象は、2 つの構成要素タイプ間の動作の違いを示しており、将来のラベル付き教師なし解析の基礎を築きます。

要約(オリジナル)

Unsupervised constituency parsing is about identifying word sequences that form a syntactic unit (i.e., constituents) in a target sentence. Linguists identify the constituent by evaluating a set of Predicate-Argument Structure (PAS) equivalent sentences where we find the constituent corresponds to frequent word sequences. However, such information is unavailable to previous parsing methods which identify the constituent by observing sentences with diverse PAS. In this study, we empirically verify that \textbf{constituents correspond to word sequence patterns in the PAS-equivalent sentence set}. We propose a frequency-based method \emph{span-overlap}, applying the word sequence pattern to computational unsupervised parsing for the first time. Parsing experiments show that the span-overlap parser outperforms state-of-the-art parsers in eight out of ten languages. Further discrimination analysis confirms that the span-overlap method can non-trivially separate constituents from non-constituents. This result highlights the utility of the word sequence pattern. Additionally, we discover a multilingual phenomenon: \textbf{participant-denoting constituents are more frequent than event-denoting constituents}. The phenomenon indicates a behavioral difference between the two constituent types, laying the foundation for future labeled unsupervised parsing.

arxiv情報

著者 Junjie Chen,Xiangheng He,Danushka Bollegala,Yusuke Miyao
発行日 2024-04-18 10:17:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク