infoVerse: A Universal Framework for Dataset Characterization with Multidimensional Meta-information

要約

NLP システムの成功は、多くの場合、大規模で高品質のデータセットが利用できるかどうかにかかっています。
ただし、一部のサンプルには冗長またはノイズが含まれている可能性があるため、これらのデータセット内のすべてのサンプルが学習に同等に価値があるわけではありません。
モデル駆動型のメタ情報 (モデルの信頼度など) に基づいてデータセットを特徴付ける方法がいくつか開発されていますが、これらの方法の関係や相補的効果はあまり注目されていません。
このペーパーでは、データセット特性評価のためのユニバーサル フレームワークである infoVerse を紹介します。これは、さまざまなモデル駆動型のメタ情報を組み込むことで、データセットの多次元特性を効果的に捕捉する新しい特徴空間を提供します。
infoVerse は、元の意味空間では明らかではないデータセットの特徴的な領域を明らかにするため、ユーザー (またはモデル) が探索、評価、または注釈の対象となるサンプルを特定するのに役立ちます。
さらに、情報量を最大化する一連のデータポイントを選択するために、infoVerse で新しいサンプリング方法を提案します。
3 つの現実世界のアプリケーション (データ プルーニング、アクティブ ラーニング、データ アノテーション) では、infoVerse スペースで選択されたサンプルは、すべてのアプリケーションの強力なベースラインを一貫して上回っています。
私たちのコードとデモは公開されています。

要約(オリジナル)

The success of NLP systems often relies on the availability of large, high-quality datasets. However, not all samples in these datasets are equally valuable for learning, as some may be redundant or noisy. Several methods for characterizing datasets based on model-driven meta-information (e.g., model’s confidence) have been developed, but the relationship and complementary effects of these methods have received less attention. In this paper, we introduce infoVerse, a universal framework for dataset characterization, which provides a new feature space that effectively captures multidimensional characteristics of datasets by incorporating various model-driven meta-information. infoVerse reveals distinctive regions of the dataset that are not apparent in the original semantic space, hence guiding users (or models) in identifying which samples to focus on for exploration, assessment, or annotation. Additionally, we propose a novel sampling method on infoVerse to select a set of data points that maximizes informativeness. In three real-world applications (data pruning, active learning, and data annotation), the samples chosen on infoVerse space consistently outperform strong baselines in all applications. Our code and demo are publicly available.

arxiv情報

著者 Jaehyung Kim,Yekyung Kim,Karin de Langis,Jinwoo Shin,Dongyeop Kang
発行日 2023-06-12 10:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク