Mining Reasons For And Against Vaccination From Unstructured Data Using Nichesourcing and AI Data Augmentation

要約

私たちは、ワクチン接種の賛否両論を予測するためのデータセットであるワクチン接種の理由と反対の理由、および科学的権威がそれらを正当化するために使用するデータセットを紹介します。ニッチソーシングを通じて注釈が付けられ、GPT4 および GPT3.5-Turbo を使用して拡張されています。
高度な主観性が含まれるにもかかわらず、さまざまなタスク定義の下で、非構造化テキストでこれらの理由を掘り出すことがどのように可能であるかを示し、GPT4 および GPT3.5-Turbo によるインコンテキスト学習を使用して人工的に拡張されたデータの影響を調査します。
アノテーターのトレーニングとタスクの定義に使用されるアノテーション マニュアルとともに、データセットとトレーニングされたモデルを公開します。

要約(オリジナル)

We present Reasons For and Against Vaccination (RFAV), a dataset for predicting reasons for and against vaccination, and scientific authorities used to justify them, annotated through nichesourcing and augmented using GPT4 and GPT3.5-Turbo. We show how it is possible to mine these reasons in non-structured text, under different task definitions, despite the high level of subjectivity involved and explore the impact of artificially augmented data using in-context learning with GPT4 and GPT3.5-Turbo. We publish the dataset and the trained models along with the annotation manual used to train annotators and define the task.

arxiv情報

著者 Damián Ariel Furman,Juan Junqueras,Z. Burçe Gümüslü,Edgar Altszyler,Joaquin Navajas,Ophelia Deroy,Justin Sulik
発行日 2024-06-28 14:36:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク