Synthetic location trajectory generation using categorical diffusion models

要約

拡散確率モデル (DPM) は急速に進化し、コンピューター ビジョン、オーディオ、自然言語処理、生体分子生成などの合成データのシミュレーション用の主要な生成モデルの 1 つになりました。
ここでは、個人が訪問する物理的な場所を表す変数のシーケンスである合成個人位置軌跡 (ILT) を生成するために DPM を使用することを提案します。
ILT は、人々の移動行動を理解し、最終的には政治的意思決定に情報を提供するために、移動研究において非常に重要です。
我々は、ILT を多次元カテゴリ確率変数として表し、最初に連続的な制約のない空間で拡散プロセスを適用し、次に連続変数を離散空間にマッピングすることにより、連続 DPM を使用してそれらの結合分布をモデル化することを提案します。
条件付きおよび無条件で生成されたシーケンスを GNSS 追跡データセットからの実世界の ILP と比較することで、モデルが現実的な ILP を合成できることを実証します。これは、モビリティ研究で使用されるベンチマーク モデルなど、合成データ生成にモデルが使用できる可能性を示唆しています。

要約(オリジナル)

Diffusion probabilistic models (DPMs) have rapidly evolved to be one of the predominant generative models for the simulation of synthetic data, for instance, for computer vision, audio, natural language processing, or biomolecule generation. Here, we propose using DPMs for the generation of synthetic individual location trajectories (ILTs) which are sequences of variables representing physical locations visited by individuals. ILTs are of major importance in mobility research to understand the mobility behavior of populations and to ultimately inform political decision-making. We represent ILTs as multi-dimensional categorical random variables and propose to model their joint distribution using a continuous DPM by first applying the diffusion process in a continuous unconstrained space and then mapping the continuous variables into a discrete space. We demonstrate that our model can synthesize realistic ILPs by comparing conditionally and unconditionally generated sequences to real-world ILPs from a GNSS tracking data set which suggests the potential use of our model for synthetic data generation, for example, for benchmarking models used in mobility research.

arxiv情報

著者 Simon Dirmeier,Ye Hong,Fernando Perez-Cruz
発行日 2024-02-19 15:57:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク