Company2Vec — German Company Embeddings based on Corporate Websites

要約

この論文では、Company2Vec を使用して、表現学習における新しいアプリケーションを提案しています。
このモデルは、Word2Vec と次元削減を使用して、非構造化企業 Web サイト データからビジネス活動を分析します。
Company2Vec はセマンティック言語構造を維持するため、細かい粒度の業界に効率的な企業埋め込みを作成します。
これらのセマンティック埋め込みは、銀行業務のさまざまなアプリケーションに使用できます。
企業と単語間の直接的な関係により、意味論的なビジネス分析が可能になります (例: 企業の上位 n 単語)。
さらに、業界予測は教師あり学習のアプリケーションと評価方法として提示されます。
エンベディングのベクトル化された構造により、コサイン距離を使用して企業の類似性を測定できます。
したがって、Company2Vec は、標準の業界ラベル (NACE) よりも詳細な企業の比較を提供します。
このプロパティは、クラスタリングなどの教師なし学習タスクに関連します。
代替の業界セグメンテーションは、企業の埋め込みに対する K 平均法クラスタリングを使用して表示されます。
最後に、この論文は、(1) 企業中心、(2) 業界中心、(3) ポートフォリオ中心のピア企業識別のための 3 つのアルゴリズムを提案します。

要約(オリジナル)

With Company2Vec, the paper proposes a novel application in representation learning. The model analyzes business activities from unstructured company website data using Word2Vec and dimensionality reduction. Company2Vec maintains semantic language structures and thus creates efficient company embeddings in fine-granular industries. These semantic embeddings can be used for various applications in banking. Direct relations between companies and words allow semantic business analytics (e.g. top-n words for a company). Furthermore, industry prediction is presented as a supervised learning application and evaluation method. The vectorized structure of the embeddings allows measuring companies similarities with the cosine distance. Company2Vec hence offers a more fine-grained comparison of companies than the standard industry labels (NACE). This property is relevant for unsupervised learning tasks, such as clustering. An alternative industry segmentation is shown with k-means clustering on the company embeddings. Finally, this paper proposes three algorithms for (1) firm-centric, (2) industry-centric and (3) portfolio-centric peer-firm identification.

arxiv情報

著者 Christopher Gerling
発行日 2023-07-18 15:14:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-fin.CP, q-fin.PM パーマリンク