LFTK: Handcrafted Features in Computational Linguistics

要約

過去の研究により、さまざまなタスクを支援する可能性がある手作りの言語機能の豊富なセットが特定されています。
しかし、その数が膨大であるため、既存の手作りの機能を効果的に選択して活用することが困難になります。
研究活動全体で実装が一貫していないという問題と相まって、分類スキームや一般的に受け入れられている機能名が存在しませんでした。
これにより、望ましくない混乱が生じます。
また、既存の手作りの特徴抽出ライブラリのほとんどはオープンソースではないか、積極的にメンテナンスされていません。
その結果、研究者は多くの場合、そのような抽出システムを一から構築する必要があります。
過去の文献に基づいて、220 を超える人気の手作り作品を収集し、分類しています。
次に、いくつかのタスク固有のデータセットに対して相関分析調査を実施し、各機能の潜在的なユースケースを報告します。
最後に、体系的に拡張可能な方法で、多言語の手作りの言語特徴抽出システムを考案します。
私たちは、事前に実装された手作りの機能の豊富なセットに一般にアクセスできるように、システムをオープンソース化しています。
私たちのシステムは LFTK という造語で、この種のシステムとしては最大のものです。
github.com/brucewlee/lftk で見つけてください。

要約(オリジナル)

Past research has identified a rich set of handcrafted linguistic features that can potentially assist various tasks. However, their extensive number makes it difficult to effectively select and utilize existing handcrafted features. Coupled with the problem of inconsistent implementation across research works, there has been no categorization scheme or generally-accepted feature names. This creates unwanted confusion. Also, most existing handcrafted feature extraction libraries are not open-source or not actively maintained. As a result, a researcher often has to build such an extraction system from the ground up. We collect and categorize more than 220 popular handcrafted features grounded on past literature. Then, we conduct a correlation analysis study on several task-specific datasets and report the potential use cases of each feature. Lastly, we devise a multilingual handcrafted linguistic feature extraction system in a systematically expandable manner. We open-source our system for public access to a rich set of pre-implemented handcrafted features. Our system is coined LFTK and is the largest of its kind. Find it at github.com/brucewlee/lftk.

arxiv情報

著者 Bruce W. Lee,Jason Hyung-Jong Lee
発行日 2023-06-01 17:42:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク