要約
タイトル: Text2Time: Transformer-based Article Time Period Prediction
要約:
– テキストドキュメント、例えばニュース記事などの出版期間を予測するタスクは、自然言語処理の分野において重要ですが、あまり研究されていません。
– ニュース記事の年度を予測することは、歴史的研究、感情分析、メディアモニタリングなど、さまざまな文脈で役立ちます。
– この研究では、ニュース記事を含むテキストドキュメントの出版期間を、そのテキストの内容に基づいて予測する問題を調査します。
– そのために、ニューヨーク・タイムズが6年間にわたって公開した35万以上のニュース記事からなる、独自のラベル付きデータセットを作成しました。
– 我々のアプローチでは、テキスト分類のために事前学習されたBERTモデルを微調整した上で、出版期間予測のタスクに使用します。
– このモデルは、ニュース記事をそれぞれの出版十年ごとに正確に分類するという非常に印象的な結果を提供し、テキストからの時期予測という比較的未開拓なタスクにおいてベースラインモデルの性能を上回ります。
要約(オリジナル)
The task of predicting the publication period of text documents, such as news articles, is an important but less studied problem in the field of natural language processing. Predicting the year of a news article can be useful in various contexts, such as historical research, sentiment analysis, and media monitoring. In this work, we investigate the problem of predicting the publication period of a text document, specifically a news article, based on its textual content. In order to do so, we created our own extensive labeled dataset of over 350,000 news articles published by The New York Times over six decades. In our approach, we use a pretrained BERT model fine-tuned for the task of text classification, specifically for time period prediction.This model exceeds our expectations and provides some very impressive results in terms of accurately classifying news articles into their respective publication decades. The results beat the performance of the baseline model for this relatively unexplored task of time prediction from text.
arxiv情報
著者 | Karthick Prasad Gunasekaran,B Chase Babrich,Saurabh Shirodkar,Hee Hwang |
発行日 | 2023-04-24 03:56:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI