Using Sequences of Life-events to Predict Human Lives

要約

過去 10 年にわたり、機械学習は、柔軟な計算モデルを通じてテキストを分析するコンピューターの能力に革命をもたらしました。
書き言葉との構造的類似性により、トランスベースのアーキテクチャは、タンパク質構造、音楽、電子健康記録から天気予報に至るまで、さまざまな多変量シーケンスを理解するツールとしても有望であることが示されています。
この構造的類似性を言語と共有する方法で人間の生活を表現することもできます。
ある観点から見ると、人生は単なる出来事の連続です。つまり、人が生まれ、小児科医を訪ね、学校に通い始め、新しい場所に引っ越し、結婚するなどです。
ここでは、この類似性を利用して自然言語処理の革新を適応させ、詳細なイベントシーケンスに基づいて人間の生活の進化と予測可能性を調査します。
私たちはこれを、数十年にわたって 600 万人以上の個人を含む国全体で利用できる、おそらく現存する中で最も包括的な登録データを活用することによって行っています。
当社のデータには、健康、教育、職業、収入、住所、労働時間などのライフイベントに関する情報が含まれており、日々の解像度で記録されています。
単一のベクトル空間にライフ イベントの埋め込みを作成し、この埋め込み空間が堅牢で高度に構造化されていることを示します。
私たちのモデルを使用すると、早期死亡率から性格のニュアンスに至るまで、さまざまな結果を予測でき、最先端のモデルを大幅に上回ります。
深層学習モデルを解釈するメソッドを使用してアルゴリズムを調査し、予測を可能にする要因を理解します。
私たちのフレームワークにより、研究者は人生の結果に影響を与える新しい潜在的なメカニズムと、それに関連する個別化された介入の可能性を特定することができます。

要約(オリジナル)

Over the past decade, machine learning has revolutionized computers’ ability to analyze text through flexible computational models. Due to their structural similarity to written language, transformer-based architectures have also shown promise as tools to make sense of a range of multi-variate sequences from protein-structures, music, electronic health records to weather-forecasts. We can also represent human lives in a way that shares this structural similarity to language. From one perspective, lives are simply sequences of events: People are born, visit the pediatrician, start school, move to a new location, get married, and so on. Here, we exploit this similarity to adapt innovations from natural language processing to examine the evolution and predictability of human lives based on detailed event sequences. We do this by drawing on arguably the most comprehensive registry data in existence, available for an entire nation of more than six million individuals across decades. Our data include information about life-events related to health, education, occupation, income, address, and working hours, recorded with day-to-day resolution. We create embeddings of life-events in a single vector space showing that this embedding space is robust and highly structured. Our models allow us to predict diverse outcomes ranging from early mortality to personality nuances, outperforming state-of-the-art models by a wide margin. Using methods for interpreting deep learning models, we probe the algorithm to understand the factors that enable our predictions. Our framework allows researchers to identify new potential mechanisms that impact life outcomes and associated possibilities for personalized interventions.

arxiv情報

著者 Germans Savcisens,Tina Eliassi-Rad,Lars Kai Hansen,Laust Mortensen,Lau Lilleholt,Anna Rogers,Ingo Zettler,Sune Lehmann
発行日 2023-06-05 16:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP, stat.ML パーマリンク