Grammar-Constrained Decoding for Structured NLP Tasks without Finetuning

要約

大規模言語モデル (LM) は、その優れたパフォーマンスにもかかわらず、必要な出力形式に正確に従うように微調整されていない場合、複雑な出力構造を確実に生成するのに依然として苦労しています。
この問題に対処するには、文法制約デコード (GCD) を使用して LM の生成を制御し、出力が指定された構造に従うことを保証できます。
ただし、既存の GCD メソッドのほとんどは、解析やコード生成などの特定のタスクに限定されています。
この研究では、形式文法がはるかに広範囲のタスクの出力空間を記述できることを実証し、GCD が構造化 NLP タスク全般の統一フレームワークとして機能できることを主張します。
柔軟性を高めるために、入力依存文法を導入しました。これにより、文法が入力に依存できるようになり、異なる入力に対して異なる出力構造を生成できるようになります。
次に、(1) 情報抽出、(2) エンティティの曖昧さの解消、および (3) 構成要素の解析に関する GCD 強化 LM の能力と柔軟性を経験的に実証します。
私たちの結果は、文法に制約のある LM が制約のない LM よりも大幅に優れたパフォーマンスを示し、さらにはタスク固有の微調整モデルを上回ることを示しています。
したがって、文法制約は、特にトレーニング データが不足している場合や微調整に費用がかかる場合に、広範な構造化 NLP タスクに既製の LM を活用する上で大きな可能性を秘めています。
コードとデータ: https://github.com/epfl-dlab/GCD。

要約(オリジナル)

Despite their impressive performance, large language models (LMs) still struggle with reliably generating complex output structures when not finetuned to follow the required output format exactly. To address this issue, grammar-constrained decoding (GCD) can be used to control the generation of LMs, guaranteeing that the output follows a given structure. Most existing GCD methods are, however, limited to specific tasks, such as parsing or code generation. In this work, we demonstrate that formal grammars can describe the output space for a much wider range of tasks and argue that GCD can serve as a unified framework for structured NLP tasks in general. For increased flexibility, we introduce input-dependent grammars, which allow the grammar to depend on the input and thus enable the generation of different output structures for different inputs. We then empirically demonstrate the power and flexibility of GCD-enhanced LMs on (1) information extraction, (2) entity disambiguation, and (3) constituency parsing. Our results indicate that grammar-constrained LMs substantially outperform unconstrained LMs or even beat task-specific finetuned models. Grammar constraints thus hold great promise for harnessing off-the-shelf LMs for a wide range of structured NLP tasks, especially where training data is scarce or finetuning is expensive. Code and data: https://github.com/epfl-dlab/GCD.

arxiv情報

著者 Saibo Geng,Martin Josifoski,Maxime Peyrard,Robert West
発行日 2023-11-10 09:37:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク