BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and Semantic Parsing

要約

最近の研究では、出力が有効な意味表現であるように制約されている場合、プロンプトまたは微調整された言語モデルからの生成が意味解析で適切に実行できることが示されています。
制約付き言語モデル解析を評価するためのベンチマークである BenchCLAMP を紹介します。これには、さまざまな出力表現を持つ 7 つの意味解析データセットと 2 つの構文解析データセット用のコンテキストフリー文法と、これらの文法でカバーされる有効な出力のみを生成する制約付きデコード インターフェイスが含まれています。

データセットごとに低、中、高のリソース分割を提供し、異なるデータ体制下でさまざまな言語モデルを正確に比較できるようにします。
私たちのベンチマークは、プロンプトベースの学習と微調整を使用した言語モデルの評価をサポートしています。
API 経由でのみ利用できる 2 つの GPT-3 バリアントを含む、8 つの言語モデルをベンチマークします。
私たちの実験では、モデルの出力が有効であるように制約されている場合、エンコーダーとデコーダーの事前トレーニング済み言語モデルは、構文解析および意味解析に関して同様のパフォーマンスを達成できるか、または最先端の方法を超えることができることを示しています。

要約(オリジナル)

Recent work has shown that generation from a prompted or fine-tuned language model can perform well at semantic parsing when the output is constrained to be a valid semantic representation. We introduce BenchCLAMP, a Benchmark to evaluate Constrained LAnguage Model Parsing, that includes context-free grammars for seven semantic parsing datasets and two syntactic parsing datasets with varied output representations, as well as a constrained decoding interface to generate only valid outputs covered by these grammars. We provide low, medium, and high resource splits for each dataset, allowing accurate comparison of various language models under different data regimes. Our benchmark supports evaluation of language models using prompt-based learning as well as fine-tuning. We benchmark eight language models, including two GPT-3 variants available only through an API. Our experiments show that encoder-decoder pretrained language models can achieve similar performance or surpass state-of-the-art methods for syntactic and semantic parsing when the model output is constrained to be valid.

arxiv情報

著者 Subhro Roy,Sam Thomson,Tongfei Chen,Richard Shin,Adam Pauls,Jason Eisner,Benjamin Van Durme
発行日 2024-01-10 06:11:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク