要約
この論文は、ツイートやニュースの段落からアラビア語テキストの宣伝範囲と説得テクニックを検出することに焦点を当てています。
データセット内の各エントリには、テキスト サンプルと、テキスト内のプロパガンダ手法の開始位置と終了位置を示す対応するラベルが含まれています。
ラベル付きのスパン内にあるトークンには、特定のプロパガンダ手法に対応して「B」(開始) または「I」(内側)、「O」が割り当てられました。
アテンション マスクを使用して、各スパンに均一の長さを作成し、提供されたラベルに基づいて各トークンに BIO タグを割り当てました。
次に、プロパガンダ手法を特定するために、アラビア語テキストのトークン化とトークン分類レイヤーによる埋め込みに、AraBERT ベースの事前トレーニング済みモデルを使用しました。
私たちのトレーニング プロセスには 2 段階の微調整アプローチが含まれます。
まず、いくつかのエポックについて分類層のみをトレーニングし、その後、完全なモデルを微調整して、すべてのパラメーターを更新します。
この方法論により、事前トレーニングされた AraBERT モデルによって取得された知識を活用しながら、モデルをプロパガンダ検出タスクの特定の特性に適応させることができます。
私たちのアプローチは 0.2774 の F1 スコアを達成し、タスク 1 のリーダーボードで 3 位を確保しました。
要約(オリジナル)
This paper focuses on detecting propagandistic spans and persuasion techniques in Arabic text from tweets and news paragraphs. Each entry in the dataset contains a text sample and corresponding labels that indicate the start and end positions of propaganda techniques within the text. Tokens falling within a labeled span were assigned ‘B’ (Begin) or ‘I’ (Inside), ‘O’, corresponding to the specific propaganda technique. Using attention masks, we created uniform lengths for each span and assigned BIO tags to each token based on the provided labels. Then, we used AraBERT-base pre-trained model for Arabic text tokenization and embeddings with a token classification layer to identify propaganda techniques. Our training process involves a two-phase fine-tuning approach. First, we train only the classification layer for a few epochs, followed by full model fine-tuning, updating all parameters. This methodology allows the model to adapt to the specific characteristics of the propaganda detection task while leveraging the knowledge captured by the pre-trained AraBERT model. Our approach achieved an F1 score of 0.2774, securing the 3rd position in the leaderboard of Task 1.
arxiv情報
著者 | Md Rafiul Biswas,Zubair Shah,Wajdi Zaghouani |
発行日 | 2024-08-08 15:49:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google