Utilising a Large Language Model to Annotate Subject Metadata: A Case Study in an Australian National Research Data Catalogue

要約

オープンで再現可能な研究を支援するために、研究に利用できるデータセットの数が急速に増加しています。
データセットの可用性が高まるにつれて、データセットを検出して再利用するための高品質のメタデータを用意することがより重要になります。
ただし、データ キュレーションのためのリソースが限られているため、データセットに高品質のメタデータが不足していることがよくあるという一般的な問題があります。
一方で、人工知能や大規模言語モデル(LLM)などのテクノロジーは急速に進歩しています。
最近、ChatGPT などのこれらのテクノロジーに基づくシステムが、特定のデータ キュレーション タスクに対して有望な機能を実証しました。
この論文では、LLM ベースのインコンテキスト学習を通じて、主題のメタデータにコスト効率よくアノテーションを付けるために LLM を活用することを提案します。
私たちの方法では、主題のメタデータに注釈を付けるために設計されたプロンプトを備えた GPT-3.5 を採用しており、自動メタデータ注釈における有望なパフォーマンスを実証しています。
ただし、コンテキスト内学習に基づくモデルは分野固有のルールを取得できないため、いくつかのカテゴリでパフォーマンスが低下します。
この制限は、主題の推論に利用できるコンテキスト情報が限られていることから生じます。
私たちの知る限りでは、自動化された主題メタデータのアノテーションに大規模な言語モデルを利用するコンテキスト内学習方法を初めて導入します。

要約(オリジナル)

In support of open and reproducible research, there has been a rapidly increasing number of datasets made available for research. As the availability of datasets increases, it becomes more important to have quality metadata for discovering and reusing them. Yet, it is a common issue that datasets often lack quality metadata due to limited resources for data curation. Meanwhile, technologies such as artificial intelligence and large language models (LLMs) are progressing rapidly. Recently, systems based on these technologies, such as ChatGPT, have demonstrated promising capabilities for certain data curation tasks. This paper proposes to leverage LLMs for cost-effective annotation of subject metadata through the LLM-based in-context learning. Our method employs GPT-3.5 with prompts designed for annotating subject metadata, demonstrating promising performance in automatic metadata annotation. However, models based on in-context learning cannot acquire discipline-specific rules, resulting in lower performance in several categories. This limitation arises from the limited contextual information available for subject inference. To the best of our knowledge, we are introducing, for the first time, an in-context learning method that harnesses large language models for automated subject metadata annotation.

arxiv情報

著者 Shiwei Zhang,Mingfang Wu,Xiuzhen Zhang
発行日 2023-10-17 14:52:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク