要約
標準のガウス プロセス (GP) では、トレーニング セット内の入力ごとに 1 つの出力サンプルのみが考慮されます。
音声言語評価などの主観的なタスクのデータセットには、入力ごとに複数の人間の評価者からの出力ラベルで注釈が付けられる場合があります。
この論文では、トレーニング セットでこれらの複数の出力サンプルを許可し、利用可能な出力の不確実性情報を利用できるように GP を一般化することを提案します。
ここではすべての出力サンプルが同じタスクからのものであるため、これはマルチ出力 GP とは異なります。
出力密度関数は、すべての出力サンプルを観測する結合尤度になるように定式化され、計算コストを削減するために潜在変数は繰り返されません。
テスト セットの予測は標準 GP と同様に推論されますが、最適化されたハイパーパラメーターが異なります。
これは speechocean762 で評価され、GP が複数の人間の評価者からの参照出力の集合により似たテスト セットの出力分布を計算できることがわかります。
要約(オリジナル)
The standard Gaussian Process (GP) only considers a single output sample per input in the training set. Datasets for subjective tasks, such as spoken language assessment, may be annotated with output labels from multiple human raters per input. This paper proposes to generalise the GP to allow for these multiple output samples in the training set, and thus make use of available output uncertainty information. This differs from a multi-output GP, as all output samples are from the same task here. The output density function is formulated to be the joint likelihood of observing all output samples, and latent variables are not repeated to reduce computation cost. The test set predictions are inferred similarly to a standard GP, with a difference being in the optimised hyper-parameters. This is evaluated on speechocean762, showing that it allows the GP to compute a test set output distribution that is more similar to the collection of reference outputs from the multiple human raters.
arxiv情報
著者 | Jeremy H. M. Wong,Huayun Zhang,Nancy F. Chen |
発行日 | 2024-01-26 02:56:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google