Hybrid Human-LLM Corpus Construction and LLM Evaluation for Rare Linguistic Phenomena

要約

引数構造構文 (ASC) は、最もよく研​​究されている構文グループの 1 つであり、構文文法 (CxG) の有用性を実証するユニークな機会を提供します。
たとえば、原因運動構造(CMC、「彼女はカプチーノの泡をくしゃみした」)は、構造が意味を持たなければならないことを示しており、そうでなければ、この文脈での「くしゃみ」が動きを引き起こすという事実は説明できません。
私たちは、これは最先端の大規模言語モデル (LLM) であっても依然として困難であるという仮説を立て、動詞を典型的な動作動詞に置き換えることに基づいたテストを考案しました。
適切な CxG コーパスがない場合でも、統計的に有意な規模でこのテストを実行できるようにするために、言語的に注釈が付けられたテキストの NLP 支援コレクションの新しいパイプラインを開発します。
依存関係解析と GPT-3.5 を使用して、アノテーションのコストを大幅に削減し、まれな現象の大規模なアノテーションを可能にする方法を示します。
次に、新しく収集されたコーパスを使用して、CMC を理解するために GPT、Gemini、Llama2、および Mistral モデルを評価します。
すべてのモデルが、CMC が文に追加するモーション コンポーネントを理解するのに苦労していることがわかりました。

要約(オリジナル)

Argument Structure Constructions (ASCs) are one of the most well-studied construction groups, providing a unique opportunity to demonstrate the usefulness of Construction Grammar (CxG). For example, the caused-motion construction (CMC, “She sneezed the foam off her cappuccino”) demonstrates that constructions must carry meaning, otherwise the fact that “sneeze” in this context causes movement cannot be explained. We form the hypothesis that this remains challenging even for state-of-the-art Large Language Models (LLMs), for which we devise a test based on substituting the verb with a prototypical motion verb. To be able to perform this test at statistically significant scale, in the absence of adequate CxG corpora, we develop a novel pipeline of NLP-assisted collection of linguistically annotated text. We show how dependency parsing and GPT-3.5 can be used to significantly reduce annotation cost and thus enable the annotation of rare phenomena at scale. We then evaluate GPT, Gemini, Llama2 and Mistral models for their understanding of the CMC using the newly collected corpus. We find that all models struggle with understanding the motion component that the CMC adds to a sentence.

arxiv情報

著者 Leonie Weissweiler,Abdullatif Köksal,Hinrich Schütze
発行日 2024-03-11 17:47:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク