Text2Time: Transformer-based article time period predictor

要約

タイトル:Text2Time:Transformerベースの記事の時間期間予測
要約:

– ニュース記事などのテキストドキュメントの公開期間を予測する問題を探究する。
– そのために、6年にわたりニューヨークタイムズによって公開された35万以上のニュース記事からなる自己の大規模なラベル付きデータセットを作成した。
– 次に、優れた性能を実現する意外な単純ナイーブベイズのベースラインモデルの実装を提供する。
– 最後に、このタスクのためにファインチューンされたBERTモデルを使用するアプローチを採用する。このモデルは私たちの期待を超え、ニュース記事をその公開年代に正確に分類するという非常に印象的な結果を提供する。
– この比較的未開拓のテキストからの時期予測のタスクに対して、以前試してきたモデルの性能を上回る結果を達成する。

要約(オリジナル)

We explore the problem of predicting the publication period of text document, such as a news article, using the text from that document. In order to do so, we created our own extensive labeled dataset of over 350,000 news articles published by The New York Times over six decades. We then provide an implementation of a simple Naive Bayes baseline model, which surprisingly achieves decent performance in terms of accuracy.Finally, for our approach, we use a pretrained BERT model fine-tuned for the task of text classification. This model exceeds our expectations and provides some very impressive results in terms of accurately classifying news articles into their respective publication decades. The results beat the performance of the few previously tried models for this relatively unexplored task of time prediction from text.

arxiv情報

著者 Karthick Prasad Gunasekaran,B Chase Babrich,Saurabh Shirodkar,Hee Hwang
発行日 2023-04-21 10:05:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク