要約
文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で重要な部分です。
このようなタスクは一般に、トークンのペアごとの徹底的な比較を必要とするため、文字列の長さの実行時の複雑さは 2 次になります。
我々は、トークン間の関係を文字列上の半順序としてキャストすることによって、こうした徹底的な比較を回避でき、さらにそのようなタスクの複雑さを線形に軽減できることを示します。
私たちのメソッドは、文字列内の各トークンの実数を並行して予測し、それに応じてトークンを並べ替え、その結果、文字列内のトークンの合計順序が得られます。
それぞれの合計順序は、予測された数によって並べ替えられた、小さいトークンから大きいトークンへの一連のアークを意味します。
合計順序の交差により、文字列内のトークンのセットにわたる部分順序が生成され、これが目的の言語構造を表す有向グラフにデコードされます。
依存関係の解析と共参照の解決に関する実験により、私たちの方法が最先端または同等のパフォーマンスを達成できることがわかりました。
さらに、私たちの方法の線形複雑さと並列性により、グラフベースの共参照解決モデルの速度が 2 倍になり、グラフベースの依存関係パーサーと比較して 10 倍の高速化がもたらされます。
要約(オリジナル)
Tasks that model the relation between pairs of tokens in a string are a vital part of understanding natural language. Such tasks, in general, require exhaustive pair-wise comparisons of tokens, thus having a quadratic runtime complexity in the length of the string. We show that these exhaustive comparisons can be avoided, and, moreover, the complexity of such tasks can be reduced to linear by casting the relation between tokens as a partial order over the string. Our method predicts real numbers for each token in a string in parallel and sorts the tokens accordingly, resulting in total orders of the tokens in the string. Each total order implies a set of arcs oriented from smaller to greater tokens, sorted by their predicted numbers. The intersection of total orders results in a partial order over the set of tokens in the string, which is then decoded into a directed graph representing the desired linguistic structure. Our experiments on dependency parsing and coreference resolution show that our method achieves state-of-the-art or comparable performance. Moreover, the linear complexity and parallelism of our method double the speed of graph-based coreference resolution models, and bring a 10-times speed-up over graph-based dependency parsers.
arxiv情報
| 著者 | Tianyu Liu,Afra Amini,Mrinmaya Sachan,Ryan Cotterell | 
| 発行日 | 2023-12-12 08:46:11+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
