要約
政治科学や社会科学の研究者は、分類モデルを利用して、何百万もの Web ページの閲覧履歴を調査して情報消費の傾向を分析することがよくあります。
手動ラベル付けは非現実的であるため、自動化されたスケーラブルな方法が必要です。
この論文では、トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化し、微調整された事前トレーニング済みエンコーダー モデルの精度をコンテキスト内学習戦略と比較します。
トピックあたりわずか数百の注釈付きデータ ポイントを使用して、スクレイピングされた Web ページのデータベースから 3 つのドイツの政策に関連するコンテンツを検出します。
多言語モデルと単言語モデル、ゼロショットアプローチと少数ショットアプローチを比較し、ネガティブサンプリング戦略と URL とコンテンツベースの機能の組み合わせの影響を調査します。
私たちの結果は、効果的な分類器をトレーニングするには、注釈付きデータの小さなサンプルで十分であることを示しています。
エンコーダーベースのモデルを微調整すると、コンテキスト内学習よりも優れた結果が得られます。
URL とコンテンツ ベースの機能の両方を使用する分類子は最高のパフォーマンスを発揮しますが、コンテンツが利用できない場合は URL のみを使用すると適切な結果が得られます。
要約(オリジナル)
Researchers in the political and social sciences often rely on classification models to analyze trends in information consumption by examining browsing histories of millions of webpages. Automated scalable methods are necessary due to the impracticality of manual labeling. In this paper, we model the detection of topic-related content as a binary classification task and compare the accuracy of fine-tuned pre-trained encoder models against in-context learning strategies. Using only a few hundred annotated data points per topic, we detect content related to three German policies in a database of scraped webpages. We compare multilingual and monolingual models, as well as zero and few-shot approaches, and investigate the impact of negative sampling strategies and the combination of URL & content-based features. Our results show that a small sample of annotated data is sufficient to train an effective classifier. Fine-tuning encoder-based models yields better results than in-context learning. Classifiers using both URL & content-based features perform best, while using URLs alone provides adequate results when content is unavailable.
arxiv情報
著者 | Julian Schelb,Roberto Ulloa,Andreas Spitz |
発行日 | 2024-07-23 14:31:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google