TEI2GO: A Multilingual Approach for Fast Temporal Expression Identification

要約

時間的表現の識別は、自然言語で書かれたテキストを理解するために非常に重要です。
HeidelTime などの非常に効率的なシステムは存在しますが、実行時のパフォーマンスが限られているため、大規模なアプリケーションや運用環境での導入が妨げられています。
このホワイトペーパーでは、HeidelTime の有効性に匹敵しながらも実行時間が大幅に改善され、6 つの言語をサポートし、そのうち 4 つで最先端の結果を達成する TEI2GO モデルを紹介します。
TEI2GO モデルをトレーニングするために、手動で注釈が付けられた参照コーパスを組み合わせて使用​​し、HeidelTime で注釈が付けられたニュース テキストの弱いラベルが付けられた包括的なコーパスである「Professor HeidelTime」を開発しました。
このコーパスは、$1,050,921$ の時間表現を含む合計 $138,069$ の文書 (6 言語以上) で構成されており、これは時間表現識別のためのこれまでで最大のオープンソースの注釈付きデータセットです。
モデルがどのように作成されたかを説明することで、研究コミュニティが一連のモデルをさらに探索、改良し、追加の言語やドメインに拡張することを奨励することを目的としています。
コード、注釈、およびモデルは、コミュニティで探索および使用できるようにオープンに利用できます。
モデルは、シームレスな統合とアプリケーションのために HuggingFace 上にあるので便利です。

要約(オリジナル)

Temporal expression identification is crucial for understanding texts written in natural language. Although highly effective systems such as HeidelTime exist, their limited runtime performance hampers adoption in large-scale applications and production environments. In this paper, we introduce the TEI2GO models, matching HeidelTime’s effectiveness but with significantly improved runtime, supporting six languages, and achieving state-of-the-art results in four of them. To train the TEI2GO models, we used a combination of manually annotated reference corpus and developed “Professor HeidelTime”, a comprehensive weakly labeled corpus of news texts annotated with HeidelTime. This corpus comprises a total of $138,069$ documents (over six languages) with $1,050,921$ temporal expressions, the largest open-source annotated dataset for temporal expression identification to date. By describing how the models were produced, we aim to encourage the research community to further explore, refine, and extend the set of models to additional languages and domains. Code, annotations, and models are openly available for community exploration and use. The models are conveniently on HuggingFace for seamless integration and application.

arxiv情報

著者 Hugo Sousa,Ricardo Campos,Alípio Jorge
発行日 2024-03-25 14:23:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク