Named Entity Recognition for Address Extraction in Speech-to-Text Transcriptions Using Synthetic Data

要約

このペーパーでは、特に SlovakBERT モデルを利用した、BERT (Bidirectional Encoder Representations from Transformers) アーキテクチャに基づいて構築された Named Entity Recognition (NER) モデルを構築するためのアプローチを紹介します。
この NER モデルは、音声をテキストに書き起こして取得したデータから住所部分を抽出します。
実際のデータが不足しているため、GPT API を使用して合成データセットが生成されました。
この人工データでは、話し言葉の変動を模倣することの重要性が強調されています。
合成データのみでトレーニングされた NER モデルのパフォーマンスは、小規模な実際のテスト データセットを使用して評価されます。

要約(オリジナル)

This paper introduces an approach for building a Named Entity Recognition (NER) model built upon a Bidirectional Encoder Representations from Transformers (BERT) architecture, specifically utilizing the SlovakBERT model. This NER model extracts address parts from data acquired from speech-to-text transcriptions. Due to scarcity of real data, a synthetic dataset using GPT API was generated. The importance of mimicking spoken language variability in this artificial data is emphasized. The performance of our NER model, trained solely on synthetic data, is evaluated using small real test dataset.

arxiv情報

著者 Bibiána Lajčinová,Patrik Valábek,Michal Spišiak
発行日 2024-02-08 10:29:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク