要約
依存関係ツリーは、人間の言語の文の構文構造を表現するのに非常に成功したモデルであることが証明されています。
これらの構造では、頂点は単語であり、辺は構文に依存する単語を接続します。
これらの依存関係が短くなる傾向は、エッジまたはその変形の長さの合計に対するランダムなベースラインを使用して実証されています。
ユビキタスベースラインは、射影順序付け (エッジが交差せず、文のルートワードがどのエッジにも覆われない) で期待される合計であり、$O(n)$ 以内に計算できます。
ここでは、より弱い形式的制約、つまり平面性に焦点を当てます。
理論的領域では、与えられた文から平面順列の数、または単語の一様にランダムな平面順列を生成する効率的なアルゴリズムを生成する平面性の特徴付けを提示します。
また、平面配置での期待値と射影配置での期待値との関係も示します。
アプリケーションの領域では、エッジ長の合計の期待値を計算するための $O(n)$ 時間アルゴリズムを導出します。
また、この研究を並列コーパスに適用すると、依存関係構造に対する形式的制約の強度が増加するにつれて、実際の依存関係距離とランダムなベースラインの間のギャップが減少することがわかり、形式的制約が依存関係距離の最小化効果の一部を吸収することが示唆されます。
私たちの研究は、ランダムな平面線形化をランダムなベースラインとして使用した依存距離の最小化に関する過去の研究を再現する道を開きます。
要約(オリジナル)
Dependency trees have proven to be a very successful model to represent the syntactic structure of sentences of human languages. In these structures, vertices are words and edges connect syntactically-dependent words. The tendency of these dependencies to be short has been demonstrated using random baselines for the sum of the lengths of the edges or its variants. A ubiquitous baseline is the expected sum in projective orderings (wherein edges do not cross and the root word of the sentence is not covered by any edge), that can be computed in time $O(n)$. Here we focus on a weaker formal constraint, namely planarity. In the theoretical domain, we present a characterization of planarity that, given a sentence, yields either the number of planar permutations or an efficient algorithm to generate uniformly random planar permutations of the words. We also show the relationship between the expected sum in planar arrangements and the expected sum in projective arrangements. In the domain of applications, we derive a $O(n)$-time algorithm to calculate the expected value of the sum of edge lengths. We also apply this research to a parallel corpus and find that the gap between actual dependency distance and the random baseline reduces as the strength of the formal constraint on dependency structures increases, suggesting that formal constraints absorb part of the dependency distance minimization effect. Our research paves the way for replicating past research on dependency distance minimization using random planar linearizations as random baseline.
arxiv情報
著者 | Lluís Alemany-Puig,Ramon Ferrer-i-Cancho |
発行日 | 2023-06-29 13:56:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google