Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens

要約

大規模な言語モデルとそのマルチモーダル拡張の最近の進歩は、自己回帰の次のトークン予測を通じて、生成と理解の統一の有効性を実証しています。
ただし、科学のAIにおける3D構造生成と理解({3D GU})の重要な役割にもかかわらず、これらのタスクは大部分が独立して進化しており、自己回帰方法は露出度の低いままです。
このギャップを埋めるために、自己回帰予測を介して{3D GU}タスクをシームレスに統合する統合されたフレームワークであるUni-3DARを導入します。
その中心で、Uni-3DARは、3D構造の固有のスパース性を活用して、オクトリーを使用して3D空間を圧縮する新しい階層トークン化を採用しています。
次に、微細な3D構造の原子タイプや正確な空間座標などの重要な属性をキャプチャして、細粒の構造の詳細に追加のトークン化を適用します。
さらに、効率と有効性を高めるための2つの最適化を提案します。
1つ目は、2レベルのサブツリー圧縮戦略で、Octreeトークンシーケンスを最大8倍削減します。
2つ目は、動的に変化するトークン位置に合わせて調整されたマスクされた次のトークン予測メカニズムで、モデルのパフォーマンスが大幅に向上します。
これらの戦略を組み合わせることにより、UNI-3DARは、単一の自己回帰フレームワーク内で多様な{3D GU}タスクを正常に統合します。
分子、タンパク質、ポリマー、結晶を含む複数の顕微鏡{3D GU}タスクにわたる広範な実験により、その有効性と汎用性が検証されます。
特に、UNI-3DARは、以前の最先端の拡散モデルをかなりのマージンで上回り、最大256%の相対的な改善を達成しながら、最大21.8倍の速度を速くします。
このコードは、https://github.com/dptech-corp/uni-3darで公開されています。

要約(オリジナル)

Recent advancements in large language models and their multi-modal extensions have demonstrated the effectiveness of unifying generation and understanding through autoregressive next-token prediction. However, despite the critical role of 3D structural generation and understanding ({3D GU}) in AI for science, these tasks have largely evolved independently, with autoregressive methods remaining underexplored. To bridge this gap, we introduce Uni-3DAR, a unified framework that seamlessly integrates {3D GU} tasks via autoregressive prediction. At its core, Uni-3DAR employs a novel hierarchical tokenization that compresses 3D space using an octree, leveraging the inherent sparsity of 3D structures. It then applies an additional tokenization for fine-grained structural details, capturing key attributes such as atom types and precise spatial coordinates in microscopic 3D structures. We further propose two optimizations to enhance efficiency and effectiveness. The first is a two-level subtree compression strategy, which reduces the octree token sequence by up to 8x. The second is a masked next-token prediction mechanism tailored for dynamically varying token positions, significantly boosting model performance. By combining these strategies, Uni-3DAR successfully unifies diverse {3D GU} tasks within a single autoregressive framework. Extensive experiments across multiple microscopic {3D GU} tasks, including molecules, proteins, polymers, and crystals, validate its effectiveness and versatility. Notably, Uni-3DAR surpasses previous state-of-the-art diffusion models by a substantial margin, achieving up to 256\% relative improvement while delivering inference speeds up to 21.8x faster. The code is publicly available at https://github.com/dptech-corp/Uni-3DAR.

arxiv情報

著者 Shuqi Lu,Haowei Lin,Lin Yao,Zhifeng Gao,Xiaohong Ji,Weinan E,Linfeng Zhang,Guolin Ke
発行日 2025-03-20 16:07:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, q-bio.BM パーマリンク