要約
企業の類似性を判断することは、ヘッジ、リスク管理、ポートフォリオの分散化などを支える、金融における重要な作業である。実務家はしばしば、SICコードやGICSコードのようなセクター分類や産業分類に依存しており、前者は米国証券取引委員会(SEC)によって、後者は投資コミュニティによって広く使用されている。企業説明のクラスタリング埋め込みは、企業の類似性を決定するための潜在的な技術として提案されているが、トークン埋め込みにおける解釈可能性の欠如は、利害関係の強い文脈で採用される大きな障壁となっている。スパースオートエンコーダは、LLMの活性を解釈可能な特徴に分解することで、大規模言語モデルの解釈可能性を向上させることが期待されている。本論文では、企業の類似性測定におけるSAE特徴の利用を検討し、(1)SICコードおよび(2)主要グループコードに対するベンチマークを行う。その結果、SAE特徴量は、類似性の代用指標である月次リターンの相関や、コインテグレーションによるPnLによって評価される企業の基本的特性を定量化する上で、セクター分類を再現し、さらにそれを上回ることができると結論付けた。
要約(オリジナル)
Determining company similarity is a vital task in finance, underpinning hedging, risk management, portfolio diversification, and more. Practitioners often rely on sector and industry classifications to gauge similarity, such as SIC-codes and GICS-codes, the former being used by the U.S. Securities and Exchange Commission (SEC), and the latter widely used by the investment community. Clustering embeddings of company descriptions has been proposed as a potential technique for determining company similarity, but the lack of interpretability in token embeddings poses a significant barrier to adoption in high-stakes contexts. Sparse Autoencoders have shown promise in enhancing the interpretability of Large Language Models by decomposing LLM activations into interpretable features. In this paper, we explore the use of SAE features in measuring company similarity and benchmark them against (1) SIC codes and (2) Major Group codes. We conclude that SAE features can reproduce and even surpass sector classifications in quantifying fundamental characteristics of companies, evaluated by the correlation of monthly returns, a proxy for similarity, and PnL from cointegration.
arxiv情報
著者 | Marco Molinari,Vladimir Tregubiak,Victor Shao,Abhimanyu Pandey,Mateusz Mikolajczak,Sebastião Kuznetsov Ryder Torres Pereira |
発行日 | 2024-12-03 17:34:50+00:00 |
arxivサイト | arxiv_id(pdf) |