要約
この記事では、LIMA (Libre Multilingual Analyzer) フレームワークのアーキテクチャと、ディープ ニューラル ネットワークに基づく新しいテキスト分析モジュールの追加によるその最近の進化について説明します。
既存の構成可能なアーキテクチャと、以前に開発されたルールベースおよび統計分析コンポーネントの可用性を維持しながら、サポートされる言語の数という点で LIMA の機能を拡張しました。
モデルは、Universal dependency 2.5 コーパス、WikiNer コーパス、および CoNLL-03 データセットで 60 以上の言語に対してトレーニングされました。
ユニバーサル依存関係により、サポートされる言語の数を増やし、他のプラットフォームに統合できるモデルを生成できるようになりました。
このユビキタスな深層学習自然言語処理モデルの統合と、ユニバーサル依存関係を使用した標準の注釈付きコレクションの使用は、モデルとデータの正規化を通じた相互運用性の新しいパスとみなすことができ、これは、
Docker Hub の Docker コンテナで利用可能なサービスを介した LIMA。
要約(オリジナル)
In this article, we describe the architecture of the LIMA (Libre Multilingual Analyzer) framework and its recent evolution with the addition of new text analysis modules based on deep neural networks. We extended the functionality of LIMA in terms of the number of supported languages while preserving existing configurable architecture and the availability of previously developed rule-based and statistical analysis components. Models were trained for more than 60 languages on the Universal Dependencies 2.5 corpora, WikiNer corpora, and CoNLL-03 dataset. Universal Dependencies allowed us to increase the number of supported languages and to generate models that could be integrated into other platforms. This integration of ubiquitous Deep Learning Natural Language Processing models and the use of standard annotated collections using Universal Dependencies can be viewed as a new path of interoperability, through the normalization of models and data, that are complementary to a more standard technical interoperability, implemented in LIMA through services available in Docker containers on Docker Hub.
arxiv情報
著者 | Victor Bocharov,Romaric Besançon,Gaël de Chalendar,Olivier Ferret,Nasredine Semmar |
発行日 | 2024-09-10 14:26:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google