Uncertainty for Active Learning on Graphs

要約

不確実性サンプリングは、不確実性が最も高いデータ ポイントのラベルを繰り返し取得することで、機械学習モデルのデータ効率を向上させることを目的としたアクティブ ラーニング戦略です。
独立したデータに対して効果的であることが証明されていますが、グラフへの適用性はまだ調査されていません。
私たちは、ノード分類のための不確実性サンプリングに関する最初の広範な研究を提案します。 (1) 予測の不確実性を超えて不確実性サンプリングのベンチマークを行い、他のアクティブ ラーニング戦略との大きなパフォーマンスのギャップを強調します。
(2) データ生成プロセスの観点からグラウンドトゥルースのベイジアン不確実性推定を開発し、不確実性サンプリングを最適なクエリに導く際のその有効性を証明します。
私たちは合成データで結果を確認し、実際のデータセットで他の不確実性推定を常に上回る近似アプローチを設計します。
(3) この分析に基づいて、モデル化の不確実性における落とし穴を既存の手法に関連付けます。
私たちの分析により、グラフ上の原則に基づいた不確実性推定の開発が可能になり、情報が得られます。

要約(オリジナル)

Uncertainty Sampling is an Active Learning strategy that aims to improve the data efficiency of machine learning models by iteratively acquiring labels of data points with the highest uncertainty. While it has proven effective for independent data its applicability to graphs remains under-explored. We propose the first extensive study of Uncertainty Sampling for node classification: (1) We benchmark Uncertainty Sampling beyond predictive uncertainty and highlight a significant performance gap to other Active Learning strategies. (2) We develop ground-truth Bayesian uncertainty estimates in terms of the data generating process and prove their effectiveness in guiding Uncertainty Sampling toward optimal queries. We confirm our results on synthetic data and design an approximate approach that consistently outperforms other uncertainty estimators on real datasets. (3) Based on this analysis, we relate pitfalls in modeling uncertainty to existing methods. Our analysis enables and informs the development of principled uncertainty estimation on graphs.

arxiv情報

著者 Dominik Fuchsgruber,Tom Wollschläger,Bertrand Charpentier,Antonio Oroz,Stephan Günnemann
発行日 2024-08-08 16:11:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク