Improving Unsupervised Constituency Parsing via Maximizing Semantic Information

要約

教師なし構成素解析器は、文中のフレーズをツリー状の構文構成素構造に整理し、文の意味構造を反映する。しかし、文の対数尤度(LL)を最大化するという従来の目的は、構文構造と意味論との密接な関係を明示的に考慮していないため、LL値と構文解析精度との間に弱い相関関係が生じる。本論文では、構文構造に符号化された意味情報であるSemInfoを最大化することによって構文解析器を学習する新しい目的を導入する。セマンティクスを表現するためにBag-of-Substringsモデルを導入し、確率重み付き情報メトリックを用いてSemInfo値を推定する。SemInfo最大化目標を確率文脈自由文法(PCFG)構文解析器の学習に適用し、Tree Conditional Random Field(TreeCRF)ベースのモデルを開発することで、学習を容易にする。実験により、SemInfoはLLよりも解析精度と強い相関があることが示され、SemInfoがより優れた教師なし解析目的であることが立証された。その結果、我々のアルゴリズムは、5つのPCFGバリアントと4つの言語において、平均7.85文-F1スコアで構文解析精度を大幅に向上させ、4つの言語のうち3つの言語において最先端レベルの結果を達成した。

要約(オリジナル)

Unsupervised constituency parsers organize phrases within a sentence into a tree-shaped syntactic constituent structure that reflects the organization of sentence semantics. However, the traditional objective of maximizing sentence log-likelihood (LL) does not explicitly account for the close relationship between the constituent structure and the semantics, resulting in a weak correlation between LL values and parsing accuracy. In this paper, we introduce a novel objective that trains parsers by maximizing SemInfo, the semantic information encoded in constituent structures. We introduce a bag-of-substrings model to represent the semantics and estimate the SemInfo value using the probability-weighted information metric. We apply the SemInfo maximization objective to training Probabilistic Context-Free Grammar (PCFG) parsers and develop a Tree Conditional Random Field (TreeCRF)-based model to facilitate the training. Experiments show that SemInfo correlates more strongly with parsing accuracy than LL, establishing SemInfo as a better unsupervised parsing objective. As a result, our algorithm significantly improves parsing accuracy by an average of 7.85 sentence-F1 scores across five PCFG variants and in four languages, achieving state-of-the-art level results in three of the four languages.

arxiv情報

著者 Junjie Chen,Xiangheng He,Yusuke Miyao,Danushka Bollegala
発行日 2025-04-04 11:11:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク