Formalising lexical and syntactic diversity for data sampling in French

要約

多様性はデータセットの重要な特性であり、多様性を考慮したデータのサンプリングはデータセットの作成に役立ちます。
最適に多様なサンプルを見つけるにはコストがかかるため、ランダムサンプリングと比較して多様性を大幅に増加させるヒューリスティックを提示します。
また、安価な語彙の多様性を通じて高価な構文の多様性をサンプリングする目的で、さまざまな種類の多様性 (語彙と構文) が相関するかどうかも調査します。
データセットや多様性測定のバージョンが異なると、相関関係が変動することがわかりました。
これは、恣意的に選択された測定では、データセットの多様性に関連する特性を捕捉できない可能性があることを示しています。

要約(オリジナル)

Diversity is an important property of datasets and sampling data for diversity is useful in dataset creation. Finding the optimally diverse sample is expensive, we therefore present a heuristic significantly increasing diversity relative to random sampling. We also explore whether different kinds of diversity — lexical and syntactic — correlate, with the purpose of sampling for expensive syntactic diversity through inexpensive lexical diversity. We find that correlations fluctuate with different datasets and versions of diversity measures. This shows that an arbitrarily chosen measure may fall short of capturing diversity-related properties of datasets.

arxiv情報

著者 Louis Estève,Manon Scholivet,Agata Savary
発行日 2025-01-14 10:47:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク