Latent Variable Multi-output Gaussian Processes for Hierarchical Datasets

要約

マルチ出力ガウス プロセス (MOGP) は、異なる出力間の相関を利用して複数のタスクを処理するために導入されました。
一般に、MOGP モデルは出力間の平坦な相関構造を想定しています。
ただし、このような定式化では、たとえば、出力ごとに複数の反復が観察された場合 (これは生物学的実験の典型的な設定です)、より複雑な関係は説明できません。
この論文では、階層データセット (つまり、観測値間の関係をツリー構造内で表現できるデータセット) に対する MOGP の拡張を提案します。
私たちのモデルは、データ内の階層構造を考慮したカスタマイズされたカーネル関数を定義して、さまざまなレベルの相関関係を捕捉しながら、潜在変数の導入を活用して、専用のカーネルを通じて出力間の基礎的な依存関係を表現します。
この後者の機能は、タスクの数が増加するにつれてスケーラビリティを大幅に向上させることが期待されます。
私たちの主張を裏付けるために、ゲノミクスとモーション キャプチャからの合成データと現実世界のデータの両方を含む大規模な実験研究が提案されています。

要約(オリジナル)

Multi-output Gaussian processes (MOGPs) have been introduced to deal with multiple tasks by exploiting the correlations between different outputs. Generally, MOGPs models assume a flat correlation structure between the outputs. However, such a formulation does not account for more elaborate relationships, for instance, if several replicates were observed for each output (which is a typical setting in biological experiments). This paper proposes an extension of MOGPs for hierarchical datasets (i.e. datasets for which the relationships between observations can be represented within a tree structure). Our model defines a tailored kernel function accounting for hierarchical structures in the data to capture different levels of correlations while leveraging the introduction of latent variables to express the underlying dependencies between outputs through a dedicated kernel. This latter feature is expected to significantly improve scalability as the number of tasks increases. An extensive experimental study involving both synthetic and real-world data from genomics and motion capture is proposed to support our claims.

arxiv情報

著者 Chunchao Ma,Arthur Leroy,Mauricio Alvarez
発行日 2023-08-31 15:52:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク