Extending an Event-type Ontology: Adding Verbs and Classes Using Fine-tuned LLMs Suggestions

要約

このプロジェクトでは、語彙拡張タスクのデータに事前アノテーションを付けるための、高度な機械学習手法、特に微調整された大規模言語モデルの使用を調査しました。つまり、既存の (ただし現時点では不完全) 言語モデルに説明的な単語 (動詞) を追加します。
まだ) イベント タイプのオントロジー。
どの動詞を含めるべきか、現在のバージョンのオントロジーの外にある動詞をアノテーターに少なくともヒントを提供するためのヒューリスティックの可能性の調査から、アノテーターが次のことを行うのを支援する自動スコアの使用の可能性まで、いくつかの研究課題に焦点が当てられています。
既存のクラスに割り当てられず、新しいクラスのシードとして使用される動詞を識別するためのしきい値をより効率的に見つけることができます。
また、自動スコアと人間の注釈との相関関係も注意深く調査しました。
相関関係は強いことが判明しましたが、そのような事前アノテーションの単なる事実が比較的短いアノテーション時間につながるにもかかわらず、そのほぼ線形性により、アノテーション自体への影響は控えめです。

要約(オリジナル)

In this project, we have investigated the use of advanced machine learning methods, specifically fine-tuned large language models, for pre-annotating data for a lexical extension task, namely adding descriptive words (verbs) to an existing (but incomplete, as of yet) ontology of event types. Several research questions have been focused on, from the investigation of a possible heuristics to provide at least hints to annotators which verbs to include and which are outside the current version of the ontology, to the possible use of the automatic scores to help the annotators to be more efficient in finding a threshold for identifying verbs that cannot be assigned to any existing class and therefore they are to be used as seeds for a new class. We have also carefully examined the correlation of the automatic scores with the human annotation. While the correlation turned out to be strong, its influence on the annotation proper is modest due to its near linearity, even though the mere fact of such pre-annotation leads to relatively short annotation times.

arxiv情報

著者 Jana Straková,Eva Fučíková,Jan Hajič,Zdeňka Urešová
発行日 2023-08-10 11:13:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク