要約
金融への機械学習の応用はよく知られたアプローチになりましたが、株式市場の予測ではさらにその傾向が強くなっています。
株式市場は非常に不安定であり、世界中で膨大な量のデータが毎分生成されます。
このデータから効果的なインテリジェンスを抽出することは非常に重要です。
ただし、数値的な株式データと定性的なテキスト データを連携させるのは困難な作業となる場合があります。
この作業では、ニュース アーカイブ、テレビ ニュースのキャプション、ラジオのトランスクリプト、ツイート、日刊経済新聞などから収集した技術的および基本的なデータとセンチメントを含む、前例のない公的に利用可能なデータセットを提供することでこれを実現します。
合計 140 万件以上の感情抽出。
このデータセットは、さまざまな産業セクターとダウ ジョーンズ工業平均 (DJIA) 全体を代表する 8 社の 2018 年 1 月から 2022 年 12 月までの毎日のエントリで構成されています。
全体的な基本データと技術データが提供され、モデルの学習と展開に備えたトレーニングが提供されます。
最も重要なことは、生成されたデータは、停滞したデータが利用されないため、毎日取得されるリアルタイム データ ポイントによる増分オンライン学習に使用できることです。
すべてのデータは、API または自社設計の堅牢な情報検索テクノロジーから廃止され、レイテンシが非常に低く、金銭的コストがゼロでした。
これらの適応可能なテクノロジーにより、あらゆる銘柄のデータ抽出が容易になります。
さらに、リアルタイム データに対するスピアマンの順位相関を利用し、株価収益率とセンチメント分析を関連付けることで、DJIA および他の 8 銘柄に注目すべき結果がもたらされ、60% を超える精度レベルを達成しました。
データセットは https://github.com/batking24/Huge-Stock-Dataset で入手できます。
要約(オリジナル)
The application of Machine learning to finance has become a familiar approach, even more so in stock market forecasting. The stock market is highly volatile, and huge amounts of data are generated every minute globally. The extraction of effective intelligence from this data is of critical importance. However, a collaboration of numerical stock data with qualitative text data can be a challenging task. In this work, we accomplish this by providing an unprecedented, publicly available dataset with technical and fundamental data and sentiment that we gathered from news archives, TV news captions, radio transcripts, tweets, daily financial newspapers, etc. The text data entries used for sentiment extraction total more than 1.4 Million. The dataset consists of daily entries from January 2018 to December 2022 for eight companies representing diverse industrial sectors and the Dow Jones Industrial Average (DJIA) as a whole. Holistic Fundamental and Technical data is provided training ready for Model learning and deployment. Most importantly, the data generated could be used for incremental online learning with real-time data points retrieved daily since no stagnant data was utilized. All the data was retired from APIs or self-designed robust information retrieval technologies with extremely low latency and zero monetary cost. These adaptable technologies facilitate data extraction for any stock. Moreover, the utilization of Spearman’s rank correlation over real-time data, linking stock returns with sentiment analysis has produced noteworthy results for the DJIA and the eight other stocks, achieving accuracy levels surpassing 60%. The dataset is made available at https://github.com/batking24/Huge-Stock-Dataset.
arxiv情報
著者 | Sai Akash Bathini,Dagli Cihan |
発行日 | 2024-01-02 15:13:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google