要約
引用価値検出(CWD)は、記事またはコレクション内のどの文を、提供する情報を検証するために引用をバックアップする必要があるかを決定することで構成されています。
この研究では、アクティブ学習(AL)とパターン抽出トレーニング(PET)を組み合わせたフレームワークであるALPETを紹介し、データリソースが限られている言語のCWDを強化します。
カタラン、バスク、アルバニアのウィキペディアデータセットに適用されるAlpetは、既存のCCWベースラインを上回り、場合によっては80 \%を超えてラベル付けされたデータの量を減らします。
300のラベル付きサンプル後のAlpetのパフォーマンスプラトーは、大きなラベル付きデータセットが一般的ではない低リソースシナリオに適していることを示しています。
K-Meansクラスタリングを採用しているものと同様に、特定のアクティブ学習クエリ戦略は利点を提供できますが、その有効性は普遍的ではなく、特にデータセットが小さい場合、ランダムサンプリングよりもわずかな利益を得ることがよくあります。
これは、ランダムサンプリングは、その単純さにもかかわらず、制約リソース環境におけるCWDにとって強力なベースラインのままであることを示唆しています。
全体として、ラベルの付いたサンプルを少なくして高性能を達成するAlpetの能力は、低リソースの言語設定でオンラインコンテンツの検証可能性を高めるための有望なツールになります。
要約(オリジナル)
Citation Worthiness Detection (CWD) consists in determining which sentences, within an article or collection, should be backed up with a citation to validate the information it provides. This study, introduces ALPET, a framework combining Active Learning (AL) and Pattern-Exploiting Training (PET), to enhance CWD for languages with limited data resources. Applied to Catalan, Basque, and Albanian Wikipedia datasets, ALPET outperforms the existing CCW baseline while reducing the amount of labeled data in some cases above 80\%. ALPET’s performance plateaus after 300 labeled samples, showing it suitability for low-resource scenarios where large, labeled datasets are not common. While specific active learning query strategies, like those employing K-Means clustering, can offer advantages, their effectiveness is not universal and often yields marginal gains over random sampling, particularly with smaller datasets. This suggests that random sampling, despite its simplicity, remains a strong baseline for CWD in constraint resource environments. Overall, ALPET’s ability to achieve high performance with fewer labeled samples makes it a promising tool for enhancing the verifiability of online content in low-resource language settings.
arxiv情報
著者 | Aida Halitaj,Arkaitz Zubiaga |
発行日 | 2025-02-05 15:49:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google