要約
オンラインで入手できるニュース記事の数が増え続けるにつれ、ニュース記事が書かれている言語に関係なく、ニュース記事をトピックごとに分類することが、関連コンテンツへの読者のアクセスを向上させるために重要になっています。
この課題に対処するために、手動のデータ注釈を必要とせずに適度なサイズの多言語ニュース分類モデルを開発するための大規模言語モデル (LLM) に基づく教師と生徒のフレームワークを提案します。
このフレームワークは、教師モデルとして Generative Pretrained Transformer (GPT) モデルを採用し、スロベニア語、クロアチア語、ギリシャ語、カタロニア語のニュース記事の自動注釈を通じて IPTC メディア トピック トレーニング データセットを開発します。
教師モデルは、4 つの言語すべてで高いゼロショット パフォーマンスを示します。
ヒューマン・アノテーターとの合意は、ヒューマン・アノテーター自身の間の合意に匹敵します。
毎日何百万ものテキストを処理する要件に伴う計算上の制限を軽減するために、より小規模な BERT のような学生モデルが GPT アノテーション付きデータセットで微調整されています。
教師モデルに匹敵する高いパフォーマンスを実現した生徒モデルです。
さらに、トレーニング データ サイズが学生モデルのパフォーマンスに与える影響を調査し、学生モデルの単言語、多言語、およびゼロショットのクロスリンガル能力を調査します。
この調査結果は、学生モデルが比較的少数のトレーニング インスタンスで高いパフォーマンスを達成でき、強力なゼロショットの異言語能力を実証できることを示しています。
最後に、IPTC メディア トピック スキーマのトップレベル カテゴリを使用した多言語分類を可能にする、最もパフォーマンスの高いニュース トピック分類子を公開します。
要約(オリジナル)
With the ever-increasing number of news stories available online, classifying them by topic, regardless of the language they are written in, has become crucial for enhancing readers’ access to relevant content. To address this challenge, we propose a teacher-student framework based on large language models (LLMs) for developing multilingual news classification models of reasonable size with no need for manual data annotation. The framework employs a Generative Pretrained Transformer (GPT) model as the teacher model to develop an IPTC Media Topic training dataset through automatic annotation of news articles in Slovenian, Croatian, Greek, and Catalan. The teacher model exhibits a high zero-shot performance on all four languages. Its agreement with human annotators is comparable to that between the human annotators themselves. To mitigate the computational limitations associated with the requirement of processing millions of texts daily, smaller BERT-like student models are fine-tuned on the GPT-annotated dataset. These student models achieve high performance comparable to the teacher model. Furthermore, we explore the impact of the training data size on the performance of the student models and investigate their monolingual, multilingual and zero-shot cross-lingual capabilities. The findings indicate that student models can achieve high performance with a relatively small number of training instances, and demonstrate strong zero-shot cross-lingual abilities. Finally, we publish the best-performing news topic classifier, enabling multilingual classification with the top-level categories of the IPTC Media Topic schema.
arxiv情報
著者 | Taja Kuzman,Nikola Ljubešić |
発行日 | 2024-11-29 11:42:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google