Annotating FrameNet via Structure-Conditioned Language Generation

要約

自然主義的な言語を生成する際の言語モデルの顕著な生成能力にもかかわらず、言語構造の明示的な操作と生成に対する言語モデルの有効性はまだ研究されていません。
この論文では、FrameNet 形式に従って、与えられた意味構造を保存しながら新しい文を生成するタスクを調査します。
我々は、過剰生成とフィルタリングのアプローチに従って、フレーム意味論的に注釈が付けられた新しい文を生成するフレームワークを提案します。
私たちの結果は、豊富で明示的な意味論的情報に基づく条件付けは、プロンプトと微調整の両方の下で、人間の受容性が高い世代を生み出す傾向があることを示しています。
私たちが生成したフレーム セマンティックな構造化アノテーションは、低リソース設定でのフレーム セマンティックな役割ラベル付けのためのデータ拡張のトレーニングに効果的です。
ただし、リソース設定を高くしても利点は見られません。
私たちの調査では、高品質で意味的に豊富なデータの生成は手の届くところにあるかもしれないが、そのような世代の下流での有用性はまだ分からず、言語注釈タスクの自動化に関する未解決の課題が浮き彫りになっていると結論付けています。

要約(オリジナル)

Despite the remarkable generative capabilities of language models in producing naturalistic language, their effectiveness on explicit manipulation and generation of linguistic structures remain understudied. In this paper, we investigate the task of generating new sentences preserving a given semantic structure, following the FrameNet formalism. We propose a framework to produce novel frame-semantically annotated sentences following an overgenerate-and-filter approach. Our results show that conditioning on rich, explicit semantic information tends to produce generations with high human acceptance, under both prompting and finetuning. Our generated frame-semantic structured annotations are effective at training data augmentation for frame-semantic role labeling in low-resource settings; however, we do not see benefits under higher resource settings. Our study concludes that while generating high-quality, semantically rich data might be within reach, the downstream utility of such generations remains to be seen, highlighting the outstanding challenges with automating linguistic annotation tasks.

arxiv情報

著者 Xinyue Cui,Swabha Swayamdipta
発行日 2024-06-07 11:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク