要約
この研究では、大規模言語モデル (LLM) を使用した固有表現認識 (NER) の生成待ち時間を短縮することを目的としています。
LLM での待ち時間が長くなる主な原因は、逐次デコード プロセスです。これにより、NER のすべてのラベルとメンションが自己回帰的に生成され、シーケンスの長さが大幅に増加します。
この目的を達成するために、追加のモジュールやアーキテクチャの変更を必要とせずに、既存の生成モデル フレームワークにシームレスに統合するアプローチである Parallel Decoding in LLM for NE} (PaDeLLM-NER) を導入します。
PaDeLLM-NER では、すべてのメンションを同時にデコードできるため、生成の待ち時間が短縮されます。
実験の結果、PaDeLLM-NER は推論速度を大幅に向上させ、英語と中国語の両方で自己回帰アプローチよりも 1.76 ~ 10.22 倍高速であることが明らかになりました。
同時に、さまざまなデータセットにわたって最先端のパフォーマンスと同等のパフォーマンスが証明されているように、予測の品質も維持されます。
要約(オリジナル)
In this study, we aim to reduce generation latency for Named Entity Recognition (NER) with Large Language Models (LLMs). The main cause of high latency in LLMs is the sequential decoding process, which autoregressively generates all labels and mentions for NER, significantly increase the sequence length. To this end, we introduce Parallel Decoding in LLM for NE} (PaDeLLM-NER), a approach that integrates seamlessly into existing generative model frameworks without necessitating additional modules or architectural modifications. PaDeLLM-NER allows for the simultaneous decoding of all mentions, thereby reducing generation latency. Experiments reveal that PaDeLLM-NER significantly increases inference speed that is 1.76 to 10.22 times faster than the autoregressive approach for both English and Chinese. Simultaneously it maintains the quality of predictions as evidenced by the performance that is on par with the state-of-the-art across various datasets.
arxiv情報
著者 | Jinghui Lu,Ziwei Yang,Yanjie Wang,Xuejing Liu,Can Huang |
発行日 | 2024-02-09 09:04:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google