要約
大規模な言語モデルの最近の進歩により、研究者はさまざまな言語タスクにわたってその能力を調査するようになりましたが、単語やより大きな構文形式にわたる意味の相互作用、つまり構文と構文の交差点での現象をモデルがどのように処理するかを調査することはほとんど行われていませんでした。
セマンティクス。
このようなインタラクションを調査するためのケーススタディとして、エージェント性の意味論的な概念を紹介します。
私たちは、必要に応じて他動詞の英語動詞のサブセットの固有の言語特性を利用して、新しい評価データセットを作成しました。
このデータセットは、さまざまなサイズの 3 つのモデル クラスに、語彙レベルでのエージェント性の影響を受けやすいかどうか、および特定の構文コンテキストを考慮してこれらの単語レベルの事前確率を適切に使用できるかどうかを確認するために使用されました。
全体として、GPT-3 text-davinci-003 はすべての実験にわたって非常に優れたパフォーマンスを示し、これまでにテストされた他のすべてのモデルをはるかに上回っています。
実際、結果は構文コーパス統計と意味コーパス統計の両方よりも人間の判断との相関性がさらに優れています。
これは、LM が特定のタスクに対してコーパスを選択するよりも、言語的注釈、理論テスト、発見にとって有用なツールとして機能する可能性があることを示唆しています。
要約(オリジナル)
Recent advances in large language models have prompted researchers to examine their abilities across a variety of linguistic tasks, but little has been done to investigate how models handle the interactions in meaning across words and larger syntactic forms — i.e. phenomena at the intersection of syntax and semantics. We present the semantic notion of agentivity as a case study for probing such interactions. We created a novel evaluation dataset by utilitizing the unique linguistic properties of a subset of optionally transitive English verbs. This dataset was used to prompt varying sizes of three model classes to see if they are sensitive to agentivity at the lexical level, and if they can appropriately employ these word-level priors given a specific syntactic context. Overall, GPT-3 text-davinci-003 performs extremely well across all experiments, outperforming all other models tested by far. In fact, the results are even better correlated with human judgements than both syntactic and semantic corpus statistics. This suggests that LMs may potentially serve as more useful tools for linguistic annotation, theory testing, and discovery than select corpora for certain tasks.
arxiv情報
著者 | Lindia Tjuatja,Emmy Liu,Lori Levin,Graham Neubig |
発行日 | 2023-05-29 16:24:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google