要約
使いやすいアクティブ ラーニング ライブラリである small-text を紹介します。これは、Python での単一および複数ラベルのテキスト分類のためのプールベースのアクティブ ラーニングを提供します。
GPU を活用するものを含む、多数の事前実装された最先端のクエリ戦略を備えています。
標準化されたインターフェースにより、さまざまな分類子、クエリ戦略、および停止基準を組み合わせることができるため、迅速な組み合わせが容易になり、アクティブ ラーニングの実験とアプリケーションの両方を迅速かつ便利に開発できます。
small-text は、さまざまな分類子とクエリ戦略をアクティブ ラーニングで利用できるようにすることを目的として、scikit-learn、PyTorch、および Hugging Face トランスフォーマーなど、いくつかのよく知られた機械学習ライブラリを統合します。
後者の統合はオプションでインストール可能な拡張機能であるため、GPU を使用できますが必須ではありません。
この新しいライブラリを使用して、最近公開された SetFit トレーニング パラダイムのパフォーマンスを調査します。これをバニラ トランスフォーマーの微調整と比較すると、分類精度は後者と一致し、曲線下の領域ではそれを上回っていることがわかりました。
このライブラリは、https://github.com/webis-de/small-text の MIT ライセンスの下で、執筆時点でバージョン 1.3.0 で利用できます。
要約(オリジナル)
We introduce small-text, an easy-to-use active learning library, which offers pool-based active learning for single- and multi-label text classification in Python. It features numerous pre-implemented state-of-the-art query strategies, including some that leverage the GPU. Standardized interfaces allow the combination of a variety of classifiers, query strategies, and stopping criteria, facilitating a quick mix and match, and enabling a rapid and convenient development of both active learning experiments and applications. With the objective of making various classifiers and query strategies accessible for active learning, small-text integrates several well-known machine learning libraries, namely scikit-learn, PyTorch, and Hugging Face transformers. The latter integrations are optionally installable extensions, so GPUs can be used but are not required. Using this new library, we investigate the performance of the recently published SetFit training paradigm, which we compare to vanilla transformer fine-tuning, finding that it matches the latter in classification accuracy while outperforming it in area under the curve. The library is available under the MIT License at https://github.com/webis-de/small-text, in version 1.3.0 at the time of writing.
arxiv情報
| 著者 | Christopher Schröder,Lydia Müller,Andreas Niekler,Martin Potthast |
| 発行日 | 2023-03-02 15:56:26+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google