Entity Recognition from Colloquial Text

要約

ソーシャル メディアの投稿や非公式のコミュニケーションなどの非形式的なテキストから関心のある概念やエンティティを抽出することは、医療、顧客関係管理などを含む多くの分野の意思決定支援システムにとって重要な機能です。
さまざまな自然言語処理タスク向けの大規模言語モデルのトレーニングにおける最近の進歩にもかかわらず、開発されたモデルと技術は主に形式的なテキストに焦点を当てており、多くの明確な課題によって特徴付けられる口語データではそれほどうまく機能しません。
私たちの研究では、ヘルスケア領域に焦点を当て、BERT ベースのモデル微調整のためのいくつかのトレーニング戦略を設計および評価することで、口語テキストからの症状認識の問題を調査します。
これらの戦略は、ベース モデルの選択、トレーニング コーパス、およびトレーニング データ内の項摂動の適用によって区別されます。
これらの戦略を使用してトレーニングされた最高のパフォーマンスのモデルは、最先端の特殊な症状認識機能を大幅に上回ります。
一連の実験を通じて、私たちが設計したトレーニング戦略に関連するモデルの動作の特定のパターンを発見しました。
私たちは、その結果に基づいて、効果的なエンティティ認識のためのトレーニング戦略の設計原則を口語文で提示します。

要約(オリジナル)

Extraction of concepts and entities of interest from non-formal texts such as social media posts and informal communication is an important capability for decision support systems in many domains, including healthcare, customer relationship management, and others. Despite the recent advances in training large language models for a variety of natural language processing tasks, the developed models and techniques have mainly focused on formal texts and do not perform as well on colloquial data, which is characterized by a number of distinct challenges. In our research, we focus on the healthcare domain and investigate the problem of symptom recognition from colloquial texts by designing and evaluating several training strategies for BERT-based model fine-tuning. These strategies are distinguished by the choice of the base model, the training corpora, and application of term perturbations in the training data. The best-performing models trained using these strategies outperform the state-of-the-art specialized symptom recognizer by a large margin. Through a series of experiments, we have found specific patterns of model behavior associated with the training strategies we designed. We present design principles for training strategies for effective entity recognition in colloquial texts based on our findings.

arxiv情報

著者 Tamara Babaian,Jennifer Xu
発行日 2024-01-09 23:52:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク