Assessing Look-Ahead Bias in Stock Return Predictions Generated By GPT Sentiment Analysis

要約

ChatGPT を含む大規模言語モデル (LLM) は、ニュース テキストのセンチメントから収益性の高い取引シグナルを抽出できます。
ただし、LLM は長年のデータに基づいてトレーニングされており、トレーニング期間とバックテスト期間が重なるとバックテストで偏った結果が生成されるため、このような戦略のバックテストには課題が生じます。
このバイアスには 2 つの形態があります。1 つは、LLM がニュース記事後の株価収益率に関する特定の知識を持っている可能性がある先読みバイアス、もう 1 つは、名前が挙げられた企業に関する一般的な知識がニュース記事の測定を妨げる、注意散漫効果です。
文章の感想。
私たちは、金融ニュースのヘッドラインのセンチメントに基づいた取引戦略を通じて、これらのバイアスの原因を調査します。
当社では、元の見出しに基づいて取引パフォーマンスを、テキストから関連する企業の識別子を削除した偏りのない戦略と比較します。
サンプル内 (LLM トレーニング ウィンドウ内) では、驚くべきことに、匿名化された見出しのパフォーマンスが優れていることがわかり、気を散らす効果が先読みバイアスよりも大きな影響を与えていることがわかります。
この傾向は、LLM がより一般的な知識を持っていることが期待される大企業で特に強いです。
サンプル外の先読みバイアスは懸念事項ではありませんが、気が散る可能性は依然としてあります。
したがって、私たちが提案する匿名化手順は、バイアスを軽減したバックテストだけでなく、アウトオブサンプルの実装にも潜在的に役立つ可能性があります。

要約(オリジナル)

Large language models (LLMs), including ChatGPT, can extract profitable trading signals from the sentiment in news text. However, backtesting such strategies poses a challenge because LLMs are trained on many years of data, and backtesting produces biased results if the training and backtesting periods overlap. This bias can take two forms: a look-ahead bias, in which the LLM may have specific knowledge of the stock returns that followed a news article, and a distraction effect, in which general knowledge of the companies named interferes with the measurement of a text’s sentiment. We investigate these sources of bias through trading strategies driven by the sentiment of financial news headlines. We compare trading performance based on the original headlines with de-biased strategies in which we remove the relevant company’s identifiers from the text. In-sample (within the LLM training window), we find, surprisingly, that the anonymized headlines outperform, indicating that the distraction effect has a greater impact than look-ahead bias. This tendency is particularly strong for larger companies–companies about which we expect an LLM to have greater general knowledge. Out-of-sample, look-ahead bias is not a concern but distraction remains possible. Our proposed anonymization procedure is therefore potentially useful in out-of-sample implementation, as well as for de-biased backtesting.

arxiv情報

著者 Paul Glasserman,Caden Lin
発行日 2023-09-29 15:30:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-fin.GN パーマリンク