The Case for Scalable, Data-Driven Theory: A Paradigm for Scientific Progress in NLP

要約

私は、言語構造に関するスケーラブルなデータ駆動型理論の開発を中心とした、自然言語処理における科学的進歩のためのパラダイムを提案する。この考え方は、関心のある行動現象に網羅的なアノテーションを施すことができるように、厳密にスコープを設定し、注意深く定義された方法でデータを収集し、機械学習を使用して、これらの現象の説明理論を構築することである。概念的な土台を築いた後、QA-Answer driven Semantic Role Labeling (QA-SRL)を用いた浅い意味構造のデータ駆動型理論に関するいくつかの研究について述べる。これは、AIで注目されている複雑な言語動作の表面をなぞったに過ぎないが、将来の科学的進歩に役立つデータ収集と理論モデリングの原則を概説する。このノートは、私の博士論文の要約であり、多くを引用している。

要約(オリジナル)

I propose a paradigm for scientific progress in NLP centered around developing scalable, data-driven theories of linguistic structure. The idea is to collect data in tightly scoped, carefully defined ways which allow for exhaustive annotation of behavioral phenomena of interest, and then use machine learning to construct explanatory theories of these phenomena which can form building blocks for intelligible AI systems. After laying some conceptual groundwork, I describe several investigations into data-driven theories of shallow semantic structure using Question-Answer driven Semantic Role Labeling (QA-SRL), a schema for annotating verbal predicate-argument relations using highly constrained question-answer pairs. While this only scratches the surface of the complex language behaviors of interest in AI, I outline principles for data collection and theoretical modeling which can inform future scientific progress. This note summarizes and draws heavily on my PhD thesis.

arxiv情報

著者 Julian Michael
発行日 2023-12-01 04:55:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク