AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators

要約

多くの自然言語処理 (NLP) タスクは、ラベル付けされたデータに依存して機械学習モデルをトレーニングし、高いパフォーマンスを実現します。
ただし、特にタスクに大量のデータが含まれる場合や特殊なドメインが必要な場合、データの注釈付けは時間と費用のかかるプロセスになる可能性があります。
最近、GPT-3.5 シリーズのモデルは、さまざまな NLP タスクにわたって、驚くべき数ショットおよびゼロ ショットの能力を実証しました。
このホワイト ペーパーでは、まず、GPT-3.5 などの大規模言語モデル (LLM) が、十分なガイダンスと実証例を提供することにより、優れたクラウドソーシング アノテーターとして機能できることを主張します。
LLM をより優れたアノテーターにするために、「説明してからアノテートする」という 2 段階のアプローチを提案します。
より正確に言うと、まず、実証されたすべての例に対してプロンプトを作成し、その後、LLM を使用して、その特定の例に対して特定のグラウンド トゥルースの回答/ラベルが選択された理由について説明を提供します。
これに続いて、自己生成された説明を使用して数回の思考チェーン プロンプトを作成し、それを使用してラベルのないデータに注釈を付けます。
ユーザー入力とキーワードの関連性評価、BoolQ と WiC の 3 つのタスクについて実験を行います。
GPT-3.5 のアノテーションの結果は、ユーザー入力とキーワードの関連性評価において、クラウドソーシングによるアノテーションの結果を上回っています。
さらに、他の 2 つのタスクについて、GPT-3.5 は、クラウドソーシングによるアノテーションで得られる結果に匹敵する結果を達成します。

要約(オリジナル)

Many natural language processing (NLP) tasks rely on labeled data to train machine learning models to achieve high performance. However, data annotation can be a time-consuming and expensive process, especially when the task involves a large amount of data or requires specialized domains. Recently, GPT-3.5 series models have demonstrated remarkable few-shot and zero-shot ability across various NLP tasks. In this paper, we first claim that large language models (LLMs), such as GPT-3.5, can serve as an excellent crowdsourced annotator by providing them with sufficient guidance and demonstrated examples. To make LLMs to be better annotators, we propose a two-step approach, ‘explain-then-annotate’. To be more precise, we begin by creating prompts for every demonstrated example, which we subsequently utilize to prompt a LLM to provide an explanation for why the specific ground truth answer/label was chosen for that particular example. Following this, we construct the few-shot chain-of-thought prompt with the self-generated explanation and employ it to annotate the unlabeled data. We conduct experiments on three tasks, including user input and keyword relevance assessment, BoolQ and WiC. The annotation results from GPT-3.5 surpasses those from crowdsourced annotation for user input and keyword relevance assessment. Additionally, for the other two tasks, GPT-3.5 achieves results that are comparable to those obtained through crowdsourced annotation.

arxiv情報

著者 Xingwei He,Zhenghao Lin,Yeyun Gong,A-Long Jin,Hang Zhang,Chen Lin,Jian Jiao,Siu Ming Yiu,Nan Duan,Weizhu Chen
発行日 2023-03-29 17:03:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク