要約
シーケンスからシーケンスモデルは、抽象的な意味表現をトレーニングするために広く使用されています(Banarescu et al。、2013、AMR)パーサー。
このようなモデルをトレーニングするには、AMRグラフを1行のテキスト形式に線形化する必要があります。
ペンマンのエンコーディングは通常この目的に使用されますが、制限があると主張します。(1)深いグラフの場合、いくつかの密接に関連するノードは、線形化されたテキスト(2)ペンマンのツリーベースのエンコードには、ノードの再配置を処理するために逆ロールを必要とし、関係タイプを2倍にする必要があります。
これらの問題に対処するために、トリプルベースの線形化方法を提案し、その効率をペンマンの線形化と比較します。
トリプルはグラフを表すのに適していますが、私たちの結果は、ペンマンのネストされたグラフ構造の簡潔で明示的な表現とよりよく競争するために、トリプルエンコードの改善の余地を示唆しています。
要約(オリジナル)
Sequence-to-sequence models are widely used to train Abstract Meaning Representation (Banarescu et al., 2013, AMR) parsers. To train such models, AMR graphs have to be linearized into a one-line text format. While Penman encoding is typically used for this purpose, we argue that it has limitations: (1) for deep graphs, some closely related nodes are located far apart in the linearized text (2) Penman’s tree-based encoding necessitates inverse roles to handle node re-entrancy, doubling the number of relation types to predict. To address these issues, we propose a triple-based linearization method and compare its efficiency with Penman linearization. Although triples are well suited to represent a graph, our results suggest room for improvement in triple encoding to better compete with Penman’s concise and explicit representation of a nested graph structure.
arxiv情報
著者 | Jeongwoo Kang,Maximin Coavoux,Cédric Lopez,Didier Schwab |
発行日 | 2025-05-13 12:36:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google