Combining Language Models For Specialized Domains: A Colorful Approach

要約

汎用言語モデル (LM) は、医学や産業環境などの特殊な分野で頻繁に使用される、ドメイン固有の専門用語や用語を処理するときに問題に直面します。
さらに、一般的な言葉と専門用語が混ざり合った混合音声を解釈するのが難しいと感じることもよくあります。
これは、これらの特定のドメイン内で動作する自動音声認識システムにとって課題となります。
この研究では、ドメイン固有または二次 LM を汎用 LM に統合する新しいアプローチを紹介します。
この戦略には、一般的な LM またはドメイン固有の LM との関連性を示すために各単語にラベルを付ける、つまり「色付け」することが含まれます。
私たちは、色付きの単語を含む推論を効果的に処理するためにビーム検索アルゴリズムを強化する最適化されたアルゴリズムを開発します。
私たちの評価によれば、このアプローチは専門用語を言語タスクに統合するのに非常に効果的です。
特に、私たちの方法は、一般的なドメインのパフォーマンスを損なうことなく、ドメイン固有の単語のエラー率を大幅に低下させます。

要約(オリジナル)

General purpose language models (LMs) encounter difficulties when processing domain-specific jargon and terminology, which are frequently utilized in specialized fields such as medicine or industrial settings. Moreover, they often find it challenging to interpret mixed speech that blends general language with specialized jargon. This poses a challenge for automatic speech recognition systems operating within these specific domains. In this work, we introduce a novel approach that integrates domain-specific or secondary LM into general-purpose LM. This strategy involves labeling, or ‘coloring’, each word to indicate its association with either the general or the domain-specific LM. We develop an optimized algorithm that enhances the beam search algorithm to effectively handle inferences involving colored words. Our evaluations indicate that this approach is highly effective in integrating jargon into language tasks. Notably, our method substantially lowers the error rate for domain-specific words without compromising performance in the general domain.

arxiv情報

著者 Daniel Eitan,Menachem Pirchi,Neta Glazer,Shai Meital,Gil Ayach,Gidon Krendel,Aviv Shamsian,Aviv Navon,Gil Hetz,Joseph Keshet
発行日 2023-11-01 07:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク