Can LLM Substitute Human Labeling? A Case Study of Fine-grained Chinese Address Entity Recognition Dataset for UAV Delivery

要約

私たちは、\textbf{C}hinese \textbf{N}ame \textbf{E}ntity \textbf{R} 認識データセットである CNER-UAV を紹介します。これは、\textbf{U}nmanned での住所解決のタスクのために特別に設計されています。
\textbf{A}erial \textbf{V} 車両配送システム。
このデータセットには 5 つのカテゴリの多様な範囲が含まれており、NER モデルの包括的なトレーニングと評価が可能になります。
このデータセットを構築するために、私たちは現実世界の UAV 配信システムからデータを調達し、プライバシーとデータの整合性を確保するために厳格なデータ クリーニングと感度解除プロセスを実施しました。
結果として得られたデータセットは、約 12,000 個のアノテーション付きサンプルで構成され、人間の専門家と \textbf{L}arge \textbf{L}anguage \textbf{M}odel アノテーションが施されました。
データセットで古典的な NER モデルを評価し、詳細な分析を提供しました。
データセットとモデルは \url{https://github.com/zhhvvv/CNER-UAV} で公開されています。

要約(オリジナル)

We present CNER-UAV, a fine-grained \textbf{C}hinese \textbf{N}ame \textbf{E}ntity \textbf{R}ecognition dataset specifically designed for the task of address resolution in \textbf{U}nmanned \textbf{A}erial \textbf{V}ehicle delivery systems. The dataset encompasses a diverse range of five categories, enabling comprehensive training and evaluation of NER models. To construct this dataset, we sourced the data from a real-world UAV delivery system and conducted a rigorous data cleaning and desensitization process to ensure privacy and data integrity. The resulting dataset, consisting of around 12,000 annotated samples, underwent human experts and \textbf{L}arge \textbf{L}anguage \textbf{M}odel annotation. We evaluated classical NER models on our dataset and provided in-depth analysis. The dataset and models are publicly available at \url{https://github.com/zhhvvv/CNER-UAV}.

arxiv情報

著者 Yuxuan Yao,Sichun Luo,Haohan Zhao,Guanzhi Deng,Linqi Song
発行日 2024-03-19 11:36:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク