要約
ソーシャル メディアの投稿では多くの主張が行われており、誤った情報やフェイク ニュースが含まれている可能性があります。
したがって、クレーム検証への最初のステップとしてクレームを特定することが重要です。
膨大な数のソーシャル メディア投稿を考慮すると、申し立てを特定するタスクを自動化する必要があります。
このコンテストは、与えられたテキストから、クレームに対応する部分/スパンを特定する「クレーム スパンの特定」のタスクを扱います。
このタスクは、テキストを主張するか否かに従来の二値分類するよりも難しく、パターン認識、自然言語処理、機械学習における最先端の手法が必要です。
このコンテストでは、人間のアノテーターによってマークされたクレームスパンを持つ英語の約 8,000 件の投稿とヒンディー語での約 8,000 件の投稿を含む、HECSI と呼ばれる新しく開発されたデータセットを使用しました。
このペーパーでは、コンテストの概要と、参加チームが開発したソリューションについて説明します。
要約(オリジナル)
A lot of claims are made in social media posts, which may contain misinformation or fake news. Hence, it is crucial to identify claims as a first step towards claim verification. Given the huge number of social media posts, the task of identifying claims needs to be automated. This competition deals with the task of ‘Claim Span Identification’ in which, given a text, parts / spans that correspond to claims are to be identified. This task is more challenging than the traditional binary classification of text into claim or not-claim, and requires state-of-the-art methods in Pattern Recognition, Natural Language Processing and Machine Learning. For this competition, we used a newly developed dataset called HECSI containing about 8K posts in English and about 8K posts in Hindi with claim-spans marked by human annotators. This paper gives an overview of the competition, and the solutions developed by the participating teams.
arxiv情報
著者 | Soham Poddar,Biswajit Paul,Moumita Basu,Saptarshi Ghosh |
発行日 | 2024-11-29 09:50:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google