要約
私たちは、教師なしの不連続解析のために、穏やかに文脈依存的な文法を使用した文法帰納法を研究します。
確率的線形文脈自由書き換えシステム (LCFRS) 形式主義を使用する私たちのアプローチは、ルール構造を事前に修正し、最大の尤度でのパラメーター学習に焦点を当てます。
解析とパラメータ推定の両方の計算の複雑さを軽減するために、文法形式を LCFRS-2 (つまり、ファンアウト 2 を持つバイナリ LCFRS) に制限し、解析に O(n^6) 時間を必要とするルールをさらに破棄して、推論を削減します。
O(n^5)まで。
多数の非端末を使用することが有益であることがわかり、そのため、ルール確率の埋め込みベースのパラメータ化を備えたテンソル分解ベースのランク空間動的プログラミングを利用して、非端末の数をスケールアップします。
ドイツ語とオランダ語での実験は、私たちのアプローチが連続的および不連続な構造を持つ言語的に意味のあるツリーを誘導できることを示しています
要約(オリジナル)
We study grammar induction with mildly context-sensitive grammars for unsupervised discontinuous parsing. Using the probabilistic linear context-free rewriting system (LCFRS) formalism, our approach fixes the rule structure in advance and focuses on parameter learning with maximum likelihood. To reduce the computational complexity of both parsing and parameter estimation, we restrict the grammar formalism to LCFRS-2 (i.e., binary LCFRS with fan-out two) and further discard rules that require O(n^6) time to parse, reducing inference to O(n^5). We find that using a large number of nonterminals is beneficial and thus make use of tensor decomposition-based rank-space dynamic programming with an embedding-based parameterization of rule probabilities to scale up the number of nonterminals. Experiments on German and Dutch show that our approach is able to induce linguistically meaningful trees with continuous and discontinuous structures
arxiv情報
著者 | Songlin Yang,Roger P. Levy,Yoon Kim |
発行日 | 2023-06-09 15:42:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google