Particle Trajectory Representation Learning with Masked Point Modeling

要約

効果的な自己教師付き学習(SSL)技術は、表現学習のための大規模データセットを解き放つ鍵となる。多くの有望な手法がオンラインコーパスやキャプション付き写真を用いて開発されてきたが、データが高度に専門化された知識を符号化する科学的領域への応用はまだ初期段階にある。我々は、タイムプロジェクションチャンバー(TPC)における3次元粒子軌跡解析のための、自己教師付きマスクモデリングフレームワークを提案する。これらの検出器は、大域的にはスパース(占有率1%未満)であるが、局所的には高密度の点群を生成し、ミリメートルの分解能でメートルスケールの粒子軌跡を捉える。PointMAEを始めとして、本研究では、疎なイオン化点を解像度にとらわれないパッチにグループ化するための体積トークン化と、軌跡のセマンティクスを改善するための補助的なエネルギー注入タスクを提案する。このアプローチ(我々はPoint-based Liquid Argon Masked Autoencoder (PoLAr-MAE)と呼ぶ)は、99.4%のトラックと97.7%のシャワー分類のFスコアを達成し、ラベルデータを持たない教師ありベースラインと同等である。PoLAr-MAEは豊富な粒子軌跡表現を学習する一方で、重なり合う粒子軌跡や短寿命の粒子軌跡のようなサブトークンの現象に苦戦しています。さらなる研究を支援するために、我々はPILArNet-M(最大のオープンなLArTPCデータセット(1M以上のイベント、5.2Bのラベル付きポイント))を公開し、高エネルギー物理学(HEP)におけるSSLを前進させる。プロジェクトサイト: https://youngsm.com/polarmae/

要約(オリジナル)

Effective self-supervised learning (SSL) techniques have been key to unlocking large datasets for representation learning. While many promising methods have been developed using online corpora and captioned photographs, their application to scientific domains, where data encodes highly specialized knowledge, remains in its early stages. We present a self-supervised masked modeling framework for 3D particle trajectory analysis in Time Projection Chambers (TPCs). These detectors produce globally sparse (<1% occupancy) but locally dense point clouds, capturing meter-scale particle trajectories at millimeter resolution. Starting with PointMAE, this work proposes volumetric tokenization to group sparse ionization points into resolution-agnostic patches, as well as an auxiliary energy infilling task to improve trajectory semantics. This approach -- which we call Point-based Liquid Argon Masked Autoencoder (PoLAr-MAE) -- achieves 99.4% track and 97.7% shower classification F-scores, matching that of supervised baselines without any labeled data. While the model learns rich particle trajectory representations, it struggles with sub-token phenomena like overlapping or short-lived particle trajectories. To support further research, we release PILArNet-M -- the largest open LArTPC dataset (1M+ events, 5.2B labeled points) -- to advance SSL in high energy physics (HEP). Project site: https://youngsm.com/polarmae/

arxiv情報

著者 Sam Young,Yeon-jae Jwa,Kazuhiro Terao
発行日 2025-02-04 18:31:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, hep-ex パーマリンク