Improving Unsupervised Constituency Parsing via Maximizing Semantic Information

要約

監視されていない選挙区パーサーは、文の中のフレーズを、文のセマンティクスの組織を反映する木型の構文構成構造に編成します。
ただし、文対薄暗い文(LL)を最大化するという従来の目的は、構成構造とセマンティクスの間の密接な関係を明示的に説明するものではなく、LL値と解析精度との間の弱い相関関係をもたらします。
この論文では、監督なしのパーサーをトレーニングするための新しい目的を紹介します。構成構造と文のセマンティクス(SEMINFO)の間の情報を最大化します。
セマンティクスを表現するために、担当袋モデルを導入し、確率加重情報メトリックを適用してセミンフォを推定します。
さらに、Tree条件付きランダムフィールド(TREECRF)ベースのモデルを開発して、監視されていない構成要素解析の最先端の方法である確率論的なコンテキストのない文法(PCFG)誘導にセミンフォの最大化目標を適用します。
実験は、セミンフォがLLよりも解析精度とより強く相関することを示しています。
私たちのアルゴリズムは、5つのPCFGバリアントと4つの言語で平均7.85ポイントの解析精度を大幅に向上させ、4つの言語のうち3つの言語で新しい最先端の結果を達成します。

要約(オリジナル)

Unsupervised constituency parsers organize phrases within a sentence into a tree-shaped syntactic constituent structure that reflects the organization of sentence semantics. However, the traditional objective of maximizing sentence log-likelihood (LL) does not explicitly account for the close relationship between the constituent structure and the semantics, resulting in a weak correlation between LL values and parsing accuracy. In this paper, we introduce a novel objective for training unsupervised parsers: maximizing the information between constituent structures and sentence semantics (SemInfo). We introduce a bag-of-substrings model to represent the semantics and apply the probability-weighted information metric to estimate the SemInfo. Additionally, we develop a Tree Conditional Random Field (TreeCRF)-based model to apply the SemInfo maximization objective to Probabilistic Context-Free Grammar (PCFG) induction, the state-of-the-art method for unsupervised constituency parsing. Experiments demonstrate that SemInfo correlates more strongly with parsing accuracy than LL. Our algorithm significantly enhances parsing accuracy by an average of 7.85 points across five PCFG variants and in four languages, achieving new state-of-the-art results in three of the four languages.

arxiv情報

著者 Junjie Chen,Xiangheng He,Yusuke Miyao,Danushka Bollegala
発行日 2025-01-31 11:47:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク