Real-Time Online Stock Forecasting Utilizing Integrated Quantitative and Qualitative Analysis

要約

金融への機械学習の応用はよく知られたアプローチになりましたが、株式市場の予測ではさらにその傾向が強くなっています。
株式市場は非常に不安定であり、世界中で膨大な量のデータが毎分生成されます。
このデータから効果的なインテリジェンスを抽出することは非常に重要です。
ただし、数値的な株式データと定性的なテキスト データを連携させるのは困難な作業となる場合があります。
この研究ではこれを達成し、ニュース アーカイブ、テレビ ニュースのキャプション、ラジオのトランスクリプト、ツイート、日刊経済新聞などから収集した技術的および基礎的なデータ、センチメントを含む、前例のない公的に利用可能なデータセットを提供します。
合計 140 万件以上の感情抽出。
このデータセットは、さまざまな産業セクターとダウ ジョーンズ工業平均 (DJIA) 全体を代表する 8 社の 2018 年 1 月から 2022 年 12 月までの毎日のエントリで構成されています。
全体的な基本データと技術データが提供され、モデルの学習と展開に備えたトレーニングが提供されます。
生成されたデータは、毎日取得されるリアルタイム データ ポイントによる増分オンライン学習に使用できます。これは、停滞したデータが利用されず、すべてのデータが API または自己設計のスクリプトから削除されたためです。
さらに、リアルタイム データに対するスピアマンの順位相関を利用し、株価収益率とセンチメント分析を関連付けることで、DJIA が 60% を超える精度レベルを達成するという注目すべき結果を生み出しました。
データセットは https://github.com/batking24/Huge-Stock-Dataset から入手できます。

要約(オリジナル)

The application of Machine learning to finance has become a familiar approach, even more so in stock market forecasting. The stock market is highly volatile and huge amounts of data are generated every minute globally. The extraction of effective intelligence from this data is of critical importance. However, a collaboration of numerical stock data with qualitative text data can be a challenging task. In this work, we accomplish this and provide an unprecedented, publicly available dataset with technical and fundamental data, sentiment that we gathered from News Archives, TV news captions, Radio Transcripts, Tweets, Daily financial newspapers, etc. The text data entries used for sentiment extraction total more than 1.4 Million. The dataset consists of daily entries from January 2018 to December 2022 for 8 companies representing diverse industrial sectors and the Dow Jones Industrial Average (DJIA) as a whole. Holistic Fundamental and Technical data is provided training ready for Model learning and deployment. The data generated could be used for Incremental online learning with real-time data points retrieved daily, since there was no stagnant data utilized, all the data was retired from APIs or self-designed scripts. Moreover, the utilization of Spearman’s rank correlation over real-time data, linking stock returns with sentiment analysis has produced noteworthy results for the DJIA achieving accuracy levels surpassing 60\%. The dataset is made available at https://github.com/batking24/Huge-Stock-Dataset

arxiv情報

著者 Sai Akash Bathini,Dagli Cihan
発行日 2023-12-05 14:49:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL, cs.LG パーマリンク