LLM-PCGC: Large Language Model-based Point Cloud Geometry Compression

要約

効果的な点群圧縮の鍵は、複雑な 3D データ構造と一致する堅牢なコンテキスト モデルを取得することです。
最近、大規模言語モデル (LLM) の進歩により、コンテキスト内の学習と生成のための強力なジェネレーターとしてだけでなく、効果的なコンプレッサーとしてもその機能が強調されています。
LLM のこれらの 2 つの属性により、LLM はデータ圧縮の要求を満たすのに特に適しています。
したがって、このペーパーでは、可逆点群ジオメトリ圧縮 (PCGC) 実験に焦点を当てて、圧縮タスクに LLM を使用する可能性を探ります。
ただし、LLM を PCGC タスクに直接適用すると、いくつかの重大な課題が生じます。つまり、LLM は点群の構造をよく理解しておらず、特に大規模で複雑なタスクの場合、テキスト記述を通じてテキストと点群の間のギャップを埋めるのは困難な作業です。
そして小さな形のない点群。
これらの問題に対処するために、新しいアーキテクチャ、つまり大規模言語モデルベースの点群ジオメトリ圧縮 (LLM-PCGC) メソッドを導入します。LLM を使用して、テキスト記述や位置合わせ操作を行わずに点群ジオメトリ情報を圧縮します。
クラスタリング、K ツリー、トークン マッピング不変性、低ランク適応 (LoRA) など、クロスモダリティ表現の調整と意味的一貫性のためのさまざまな適応手法を利用することで、提案された方法は LLM を点群の圧縮器/生成器に変換できます。
私たちの知る限り、これは点群データの圧縮器として LLM を採用した最初の構造です。
実験では、MPEG ジオメトリベースの点群圧縮 (G-PCC) 標準の参照ソフトウェアと比較して -40.213% のビット レート削減を達成し、-2.267% のビット レートを達成することで、LLM-PCGC が他の既存の方法よりも大幅に優れていることが実証されています。
最先端の学習ベースの方法と比較して削減。

要約(オリジナル)

The key to effective point cloud compression is to obtain a robust context model consistent with complex 3D data structures. Recently, the advancement of large language models (LLMs) has highlighted their capabilities not only as powerful generators for in-context learning and generation but also as effective compressors. These dual attributes of LLMs make them particularly well-suited to meet the demands of data compression. Therefore, this paper explores the potential of using LLM for compression tasks, focusing on lossless point cloud geometry compression (PCGC) experiments. However, applying LLM directly to PCGC tasks presents some significant challenges, i.e., LLM does not understand the structure of the point cloud well, and it is a difficult task to fill the gap between text and point cloud through text description, especially for large complicated and small shapeless point clouds. To address these problems, we introduce a novel architecture, namely the Large Language Model-based Point Cloud Geometry Compression (LLM-PCGC) method, using LLM to compress point cloud geometry information without any text description or aligning operation. By utilizing different adaptation techniques for cross-modality representation alignment and semantic consistency, including clustering, K-tree, token mapping invariance, and Low Rank Adaptation (LoRA), the proposed method can translate LLM to a compressor/generator for point cloud. To the best of our knowledge, this is the first structure to employ LLM as a compressor for point cloud data. Experiments demonstrate that the LLM-PCGC outperforms the other existing methods significantly, by achieving -40.213% bit rate reduction compared to the reference software of MPEG Geometry-based Point Cloud Compression (G-PCC) standard, and by achieving -2.267% bit rate reduction compared to the state-of-the-art learning-based method.

arxiv情報

著者 Yuqi Ye,Wei Gao
発行日 2024-08-16 11:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク