‘You Are An Expert Linguistic Annotator’: Limits of LLMs as Analyzers of Abstract Meaning Representation

要約

大規模言語モデル (LLM) は、言語の使用において驚くべき習熟度と流暢さを示します。
これは、彼らが「専門的な言語注釈者」として機能できる程度まで、その言語についての洞察力に富んだ言語知識も獲得していることを意味するのでしょうか?
この論文では、抽象意味表現 (AMR; Banarescu et al. 2013) の構文解析に焦点を当て、文意味構造の分析における GPT-3、ChatGPT、および GPT-4 モデルの成功と限界を検証します。
表面的な形式から抽象化しながら、文の意味構造を豊富にグラフィカルに表現します。
この意味構造のモデル分析を 2 つの設定で比較します: 1) ゼロショットおよび少数ショットのプロンプトに基づく AMR 解析の直接生成、および 2) メタ言語的な自然言語クエリ (例:
この文のイベントとそのイベントに対応する述語。’)。
これらの設定全体にわたって、モデルが AMR の基本形式を確実に再現でき、多くの場合、コア イベント、引数、および修飾子の構造をキャプチャできることがわかりました。ただし、モデルの出力には頻繁に重大なエラーが発生する傾向があり、解析の受け入れ可能性の総合的な分析により、
数回のショットのデモンストレーションであっても、モデルが完全に正確な解析を生成する成功率は事実上 0% であることがわかります。
自然言語応答を引き出すと、同様のパターンのエラーが発生します。
全体として、私たちの調査結果は、これらのモデルはすぐに使用できるセマンティック構造の側面をキャプチャできるが、完全に正確なセマンティック分析または解析をサポートする能力には依然として重要な制限があることを示しています。

要約(オリジナル)

Large language models (LLMs) show amazing proficiency and fluency in the use of language. Does this mean that they have also acquired insightful linguistic knowledge about the language, to an extent that they can serve as an ‘expert linguistic annotator’? In this paper, we examine the successes and limitations of the GPT-3, ChatGPT, and GPT-4 models in analysis of sentence meaning structure, focusing on the Abstract Meaning Representation (AMR; Banarescu et al. 2013) parsing formalism, which provides rich graphical representations of sentence meaning structure while abstracting away from surface forms. We compare models’ analysis of this semantic structure across two settings: 1) direct production of AMR parses based on zero- and few-shot prompts, and 2) indirect partial reconstruction of AMR via metalinguistic natural language queries (e.g., ‘Identify the primary event of this sentence, and the predicate corresponding to that event.’). Across these settings, we find that models can reliably reproduce the basic format of AMR, and can often capture core event, argument, and modifier structure — however, model outputs are prone to frequent and major errors, and holistic analysis of parse acceptability shows that even with few-shot demonstrations, models have virtually 0% success in producing fully accurate parses. Eliciting natural language responses produces similar patterns of errors. Overall, our findings indicate that these models out-of-the-box can capture aspects of semantic structure, but there remain key limitations in their ability to support fully accurate semantic analyses or parses.

arxiv情報

著者 Allyson Ettinger,Jena D. Hwang,Valentina Pyatkin,Chandra Bhagavatula,Yejin Choi
発行日 2023-12-11 17:11:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク