Digestion Algorithm in Hierarchical Symbolic Forests: A Fast Text Normalization Algorithm and Semantic Parsing Framework for Specific Scenarios and Lightweight Deployment

要約

テキスト正規化とセマンティック解析は、自然言語プログラミング、言い換え、データ拡張、エキスパート システムの構築、テキスト マッチングなど、自然言語処理に数多くの用途があります。
大規模言語モデル (LLM) における深層学習の顕著な成果にもかかわらず、ニューラル ネットワーク アーキテクチャの解釈性は依然として低く、それが信頼性に影響を及ぼし、リスクに敏感なシナリオの展開が制限されます。
データが乏しい特定のシナリオ固有のドメインでは、多数の教師あり学習ラベルを迅速に取得することが困難であり、手動でデータにラベルを付ける作業負荷は膨大になります。
ニューラル ネットワークにおける壊滅的な忘却は、さらにデータ利用率の低下につながります。
迅速な対応が不可欠な状況では、モデルの密度によりローカルでの展開が困難になり、応答時間が長くなり、これらの分野のローカル アプリケーションには適していません。
組み合わせ数学の原則である乗算規則、および人間の思考パターンに触発され、多層フレームワークとそのアルゴリズム、階層的シンボリック フォレストの消化アルゴリズム (DAHSF) が、テキストの正規化と意味解析を組み合わせて、上記の問題に対処するために提案されています。
ワークフロー。
中国語スクリプト言語「Fire Bunny Intelligent Development Platform V2.0」は、この文書で説明するテクノロジの重要なテストおよびアプリケーションです。
DAHSF は、モデル サイズとメモリ使用量が少なくとも 2 桁最適化され、小さなデータセット上のシナリオ固有のドメインでローカルに実行できるため、実行速度が向上し、有望な最適化の見通しが得られます。

要約(オリジナル)

Text Normalization and Semantic Parsing have numerous applications in natural language processing, such as natural language programming, paraphrasing, data augmentation, constructing expert systems, text matching, and more. Despite the prominent achievements of deep learning in Large Language Models (LLMs), the interpretability of neural network architectures is still poor, which affects their credibility and hence limits the deployments of risk-sensitive scenarios. In certain scenario-specific domains with scarce data, rapidly obtaining a large number of supervised learning labels is challenging, and the workload of manually labeling data would be enormous. Catastrophic forgetting in neural networks further leads to low data utilization rates. In situations where swift responses are vital, the density of the model makes local deployment difficult and the response time long, which is not conducive to local applications of these fields. Inspired by the multiplication rule, a principle of combinatorial mathematics, and human thinking patterns, a multilayer framework along with its algorithm, the Digestion Algorithm in Hierarchical Symbolic Forests (DAHSF), is proposed to address these above issues, combining text normalization and semantic parsing workflows. The Chinese Scripting Language ‘Fire Bunny Intelligent Development Platform V2.0’ is an important test and application of the technology discussed in this paper. DAHSF can run locally in scenario-specific domains on little datasets, with model size and memory usage optimized by at least two orders of magnitude, thus improving the execution speed, and possessing a promising optimization outlook.

arxiv情報

著者 Kevin You
発行日 2024-12-18 17:05:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク