Diversity Over Size: On the Effect of Sample and Topic Sizes for Topic-Dependent Argument Mining Datasets

要約

大規模なドキュメント ソースから特定のトピックの議論コンポーネントを抽出して分類する引数マイニングのタスクは、大規模な引数マイニング データセットはまれであり、引数コンポーネントの認識には専門知識が必要であるため、機械学習モデルにとっても人間にとっても同様に本質的に困難なタスクです。

取得した引数のスタンス検出も含まれる場合、タスクはさらに困難になります。
この研究では、少数ショット設定とゼロショット設定での Argument Mining データセット構成の影響を調査します。
私たちの調査結果は、許容可能なモデルのパフォーマンスを達成するには微調整が必​​須である一方で、慎重に構成されたトレーニング サンプルを使用し、トレーニング サンプルのサイズを最大ほぼ 90% 削減しても、最大パフォーマンスの 95% を得ることができることを示しています。
このゲインは、3 つの異なるデータセットに対する 3 つの引数マイニング タスク全体で一貫しています。
また、将来のベンチマークのために新しいデータセットも公開します。

要約(オリジナル)

The task of Argument Mining, that is extracting and classifying argument components for a specific topic from large document sources, is an inherently difficult task for machine learning models and humans alike, as large Argument Mining datasets are rare and recognition of argument components requires expert knowledge. The task becomes even more difficult if it also involves stance detection of retrieved arguments. In this work, we investigate the effect of Argument Mining dataset composition in few- and zero-shot settings. Our findings show that, while fine-tuning is mandatory to achieve acceptable model performance, using carefully composed training samples and reducing the training sample size by up to almost 90% can still yield 95% of the maximum performance. This gain is consistent across three Argument Mining tasks on three different datasets. We also publish a new dataset for future benchmarking.

arxiv情報

著者 Benjamin Schiller,Johannes Daxenberger,Andreas Waldis,Iryna Gurevych
発行日 2024-10-07 15:11:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク