Unsupervised Parsing by Searching for Frequent Word Sequences among Sentences with Equivalent Predicate-Argument Structures

要約

教師なし構成要素解析は、対象となる文の構文単位 (構成要素) を形成する単語シーケンスの識別に焦点を当てます。
言語学者は、述語引数構造 (PAS) に相当する文のセットを評価することによって構成要素を特定します。そこでは、構成要素が非構成要素よりも頻繁に出現することがわかります (つまり、構成要素は文セット内の頻繁に使用される単語シーケンスに対応します)。
しかし、このような頻度情報は、多様な PAS を持つ文を観察して構成要素を識別する従来の解析手法では利用できません。
本研究では、構成要素が PAS 相当文集合の頻出単語列に対応していることを実証的に示す。
我々は、(1) PAS に相当する文セット内の単語シーケンスの頻度としてスパン オーバーラップ スコアを計算し、(2) 最大スパンを持つ構成ツリーを見つけることによって構成要素の構造を識別する、頻度ベースのパーサー スパン オーバーラップを提案します。
オーバーラップスコア。
このパーサーは最先端レベルの解析精度を達成し、10 言語中 8 言語で既存の教師なしパーサーを上回るパフォーマンスを発揮します。
さらに、多言語現象も発見しました。つまり、参加者を表す構成要素は、同じ長さのイベントを表す構成要素よりもスパン重複スコアが高い傾向にあります。これは、前者が後者よりも PAS 相当文セット内でより頻繁に出現する傾向があることを意味します。
この現象は、2 つの構成要素タイプ間の統計的な違いを示しており、将来のラベル付き教師なし解析研究の基礎を築きます。

要約(オリジナル)

Unsupervised constituency parsing focuses on identifying word sequences that form a syntactic unit (i.e., constituents) in target sentences. Linguists identify the constituent by evaluating a set of Predicate-Argument Structure (PAS) equivalent sentences where we find the constituent appears more frequently than non-constituents (i.e., the constituent corresponds to a frequent word sequence within the sentence set). However, such frequency information is unavailable in previous parsing methods that identify the constituent by observing sentences with diverse PAS. In this study, we empirically show that constituents correspond to frequent word sequences in the PAS-equivalent sentence set. We propose a frequency-based parser span-overlap that (1) computes the span-overlap score as the word sequence’s frequency in the PAS-equivalent sentence set and (2) identifies the constituent structure by finding a constituent tree with the maximum span-overlap score. The parser achieves state-of-the-art level parsing accuracy, outperforming existing unsupervised parsers in eight out of ten languages. Additionally, we discover a multilingual phenomenon: participant-denoting constituents tend to have higher span-overlap scores than equal-length event-denoting constituents, meaning that the former tend to appear more frequently in the PAS-equivalent sentence set than the latter. The phenomenon indicates a statistical difference between the two constituent types, laying the foundation for future labeled unsupervised parsing research.

arxiv情報

著者 Junjie Chen,Xiangheng He,Danushka Bollegala,Yusuke Miyao
発行日 2024-08-12 09:30:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク