Constraining Linear-chain CRFs to Regular Languages

要約

構造化予測における主な課題は、出力構造内の相互依存性を表現することです。
出力がシーケンスとして構造化されている場合、線形チェーン条件付きランダム フィールド (CRF) は、出力内の \textit{local} 依存関係を学習できる広く使用されているモデル クラスです。
ただし、CRF のマルコフ仮定により、CRF は \textit{nonlocal} 依存関係を持つ分布を表現できなくなり、標準 CRF はデータの非ローカル制約 (出力ラベルのグローバル アリティ制約など) を尊重できなくなります。
我々は、可能な出力構造の空間を正規言語 $\mathcal{L}$ として指定することによって、非ローカルなものを含む広範なクラスの制約を強制できる CRF の一般化を提示します。
結果として得られる規則的制約付き CRF (RegCCRF) は、標準 CRF と同じ形式的プロパティを持ちますが、$\mathcal{L}$ にないすべてのラベル シーケンスにゼロ確率を割り当てます。
特に、RegCCRF はトレーニング中に制約を組み込むことができますが、関連モデルはデコード中にのみ制約を強制します。
私たちは、制約付きトレーニングが制約付きデコードより決して悪くないことを証明し、実際には制約付きトレーニングの方が大幅に優れている可能性があることを経験的に示しています。
さらに、RegCCRF を意味論的役割ラベル付け用のディープ ニューラル モデルに組み込むことで、下流タスクでの実用的な利点を実証し、標準データセットでの最先端の結果を上回りました。

要約(オリジナル)

A major challenge in structured prediction is to represent the interdependencies within output structures. When outputs are structured as sequences, linear-chain conditional random fields (CRFs) are a widely used model class which can learn \textit{local} dependencies in the output. However, the CRF’s Markov assumption makes it impossible for CRFs to represent distributions with \textit{nonlocal} dependencies, and standard CRFs are unable to respect nonlocal constraints of the data (such as global arity constraints on output labels). We present a generalization of CRFs that can enforce a broad class of constraints, including nonlocal ones, by specifying the space of possible output structures as a regular language $\mathcal{L}$. The resulting regular-constrained CRF (RegCCRF) has the same formal properties as a standard CRF, but assigns zero probability to all label sequences not in $\mathcal{L}$. Notably, RegCCRFs can incorporate their constraints during training, while related models only enforce constraints during decoding. We prove that constrained training is never worse than constrained decoding, and show empirically that it can be substantially better in practice. Additionally, we demonstrate a practical benefit on downstream tasks by incorporating a RegCCRF into a deep neural model for semantic role labeling, exceeding state-of-the-art results on a standard dataset.

arxiv情報

著者 Sean Papay,Roman Klinger,Sebastian Padó
発行日 2023-08-11 10:46:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク