Utilizing Weak Supervision To Generate Indonesian Conservation Dataset

要約

弱い監視は、NLP 開発の加速に対する需要の高まりに応えて、迅速かつ大規模なデータセットを作成するための有望なアプローチとして浮上しています。
ラベル付け機能を活用することにより、弱い監視により、ソフトラベル付けされたデータセットを生成する学習済みラベルモデルを作成することで、実務者がデータセットを迅速に生成できるようになります。
この論文は、そのようなアプローチを利用して、保全ニュースのテキストからインドネシアの NLP データセットを構築する方法を示すことを目的としています。
マルチクラス分類とセンチメント分類という 2 種類のデータセットを構築します。
次に、さまざまな事前トレーニング済み言語モデルを使用したベースライン実験を提供します。
これらのベースライン結果は、センチメント分類の精度 59.79% と F1 スコア 55.72%、マルチクラス分類の F1 スコア マクロ 66.87%、F1 スコア ミクロ 71.5%、ROC-AUC 83.67% のテスト パフォーマンスを示しています。
さらに、さらなる研究と探索のために、この作業で使用されたデータセットとラベル付け関数をリリースします。

要約(オリジナル)

Weak supervision has emerged as a promising approach for rapid and large-scale dataset creation in response to the increasing demand for accelerated NLP development. By leveraging labeling functions, weak supervision allows practitioners to generate datasets quickly by creating learned label models that produce soft-labeled datasets. This paper aims to show how such an approach can be utilized to build an Indonesian NLP dataset from conservation news text. We construct two types of datasets: multi-class classification and sentiment classification. We then provide baseline experiments using various pretrained language models. These baseline results demonstrate test performances of 59.79% accuracy and 55.72% F1-score for sentiment classification, 66.87% F1-score-macro, 71.5% F1-score-micro, and 83.67% ROC-AUC for multi-class classification. Additionally, we release the datasets and labeling functions used in this work for further research and exploration.

arxiv情報

著者 Mega Fransiska,Diah Pitaloka,Saripudin,Satrio Putra,Lintang Sutawika
発行日 2023-10-17 13:23:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク