CPTAM: Constituency Parse Tree Aggregation Method

要約

様々な自然言語処理タスクでは、句構造文法に従って文の構文構造を理解する構文解析が採用されている。多くの最新の構文解析器が提案されているが、同じ文に対して、特に学習領域外のコーパスに対して、異なる結果を与える可能性がある。本稿では、真理発見の考え方を採用し、異なる構文解析器から得られた構成素解析木を、グランドトゥルースが存在しない場合にその信頼性を推定することで集約する。我々の目標は、一貫して高品質な構文解析木を集約することである。我々は構文解析木の集約問題を、構造集約と構文ラベル集約の2つのステップで定式化する。具体的には、2つの木間の古典的な対称距離尺度であるRobinson-Foulds(RF)距離の重み付き和を最小化することで、木構造の真理発見解を初めて提案する。様々な言語とドメインのベンチマークデータセットを用いて広範な実験を行った。実験結果は、我々の手法であるCPTAMが、最新の集約ベースラインを凌駕することを示している。また、CPTAMによって推定された重みは、グランドトゥルースがない場合でも、構成素解析器を適切に評価できることを示す。

要約(オリジナル)

Diverse Natural Language Processing tasks employ constituency parsing to understand the syntactic structure of a sentence according to a phrase structure grammar. Many state-of-the-art constituency parsers are proposed, but they may provide different results for the same sentences, especially for corpora outside their training domains. This paper adopts the truth discovery idea to aggregate constituency parse trees from different parsers by estimating their reliability in the absence of ground truth. Our goal is to consistently obtain high-quality aggregated constituency parse trees. We formulate the constituency parse tree aggregation problem in two steps, structure aggregation and constituent label aggregation. Specifically, we propose the first truth discovery solution for tree structures by minimizing the weighted sum of Robinson-Foulds (RF) distances, a classic symmetric distance metric between two trees. Extensive experiments are conducted on benchmark datasets in different languages and domains. The experimental results show that our method, CPTAM, outperforms the state-of-the-art aggregation baselines. We also demonstrate that the weights estimated by CPTAM can adequately evaluate constituency parsers in the absence of ground truth.

arxiv情報

著者 Adithya Kulkarni,Nasim Sabetpour,Alexey Markin,Oliver Eulenstein,Qi Li
発行日 2023-07-01 23:18:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク