tieval: An Evaluation Framework for Temporal Information Extraction Systems

要約

時間情報抽出 (TIE) は、過去 20 年間にわたって大きな関心を集めており、多数のデータセットの開発につながりました。
その利点にもかかわらず、TIE システムのベンチマークとなると、大量のコーパスにアクセスすることが困難になります。
一方で、異なるデータセットは異なる注釈スキームを持っているため、異なるコーパスにわたる競合他社間の比較が妨げられます。
一方で、各コーパスが異なる形式で配布されるのが一般的であるという事実により、研究者/実践者がすべてのコーパスのパーサーを開発するには多大なエンジニアリングの努力が必要になります。
この制約により、研究者はシステムを評価するために限られた量のデータセットを選択する必要があり、その結果、システムの比較可能性が制限されます。
TIE システムの比較可能性を妨げるさらに別の障害は、使用される評価基準です。
ほとんどの研究では精度、再現率、$F_1$ などの伝統的な指標が採用されていますが、他のいくつかの研究では時間認識、つまり時間システムの評価をより包括的に行うために調整された指標が好まれています。
ほとんどのシステムの評価において時間的認識が欠如している理由は明らかではありませんが、この決定を確実に重視する要因の 1 つは、時間的認識を計算するために時間的クロージャ アルゴリズムを実装する必要性であり、これは実装が簡単ではありません。
どちらも現在は簡単に入手できません。
全体として、これらの問題により、アプローチ間の公正な比較が制限され、その結果、時間抽出システムの開発が制限されてきました。
これらの問題を軽減するために、さまざまなコーパスをインポートするための簡潔なインターフェイスを提供し、システム評価を容易にする Python ライブラリであるtievalを開発しました。
このペーパーでは、tieval の最初の公開リリースを紹介し、その最も関連性の高い機能に焦点を当てます。

要約(オリジナル)

Temporal information extraction (TIE) has attracted a great deal of interest over the last two decades, leading to the development of a significant number of datasets. Despite its benefits, having access to a large volume of corpora makes it difficult when it comes to benchmark TIE systems. On the one hand, different datasets have different annotation schemes, thus hindering the comparison between competitors across different corpora. On the other hand, the fact that each corpus is commonly disseminated in a different format requires a considerable engineering effort for a researcher/practitioner to develop parsers for all of them. This constraint forces researchers to select a limited amount of datasets to evaluate their systems which consequently limits the comparability of the systems. Yet another obstacle that hinders the comparability of the TIE systems is the evaluation metric employed. While most research works adopt traditional metrics such as precision, recall, and $F_1$, a few others prefer temporal awareness — a metric tailored to be more comprehensive on the evaluation of temporal systems. Although the reason for the absence of temporal awareness in the evaluation of most systems is not clear, one of the factors that certainly weights this decision is the necessity to implement the temporal closure algorithm in order to compute temporal awareness, which is not straightforward to implement neither is currently easily available. All in all, these problems have limited the fair comparison between approaches and consequently, the development of temporal extraction systems. To mitigate these problems, we have developed tieval, a Python library that provides a concise interface for importing different corpora and facilitates system evaluation. In this paper, we present the first public release of tieval and highlight its most relevant features.

arxiv情報

著者 Hugo Sousa,Alípio Jorge,Ricardo Campos
発行日 2023-11-24 16:13:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク