Emergence and Effectiveness of Task Vectors in In-Context Learning: An Encoder Decoder Perspective

要約

オートリグレッシブトランスは、コンテキスト学習(ICL)を通じて適応学習を示します。
以前の作品は、変圧器が表現のベクトルとしてICLタスクを表すことを示しています。
このホワイトペーパーでは、エンコーディングデコードフレームワークを活用して、変圧器が事前トレーニング中にタスクベクターを形成する方法と、それらのタスクをエンコードする品質がICLタスクのパフォーマンスをどのように予測するかを研究します。
合成ICLタスクでは、小さなトランスのトレーニングダイナミクスを分析し、タスクエンコードとデコードの結合された出現を報告します。
モデルが異なる潜在タスクをエンコードすることを学ぶと(たとえば、「文の最初の名詞を見つける」)、明確で分離可能な表現になり、条件付きデコードアルゴリズムを同時に構築し、ICLパフォーマンスを向上させます。
この現象は、さまざまなスケール(GEMMA-2 2B/9B/27B、LlAMA-3.1 8B/70B)の前提条件モデルで検証し、OLMO-7Bでの事前採取の過程で検証します。
さらに、表現から推測されるタスクの品質がICLパフォーマンスを予測し、驚くべきことに、以前のレイヤーを微調整すると、後者のレイヤーを微調整するよりもエンコードとパフォーマンスを向上させることができることを実証します。
私たちの経験的洞察は、表現を介して大規模な言語モデルの成功と失敗モードをよりよく理解するために光を当てました。

要約(オリジナル)

Autoregressive transformers exhibit adaptive learning through in-context learning (ICL), which begs the question of how. Prior works have shown that transformers represent the ICL tasks as vectors in their representations. In this paper, we leverage the encoding-decoding framework to study how transformers form task vectors during pretraining and how their task encoding quality predicts ICL task performance. On synthetic ICL tasks, we analyze the training dynamics of a small transformer and report the coupled emergence of task encoding and decoding. As the model learns to encode different latent tasks (e.g., ‘Finding the first noun in a sentence.’) into distinct, separable representations, it concurrently builds conditional decoding algorithms and improves its ICL performance. We validate this phenomenon across pretrained models of varying scales (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B) and over the course of pretraining in OLMo-7B. Further, we demonstrate that the quality of task encoding inferred from representations predicts ICL performance, and that, surprisingly, finetuning the earlier layers can improve the task encoding and performance more than finetuning the latter layers. Our empirical insights shed light into better understanding the success and failure modes of large language models via their representations.

arxiv情報

著者 Seungwook Han,Jinyeop Song,Jeff Gore,Pulkit Agrawal
発行日 2025-06-02 12:55:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Emergence and Effectiveness of Task Vectors in In-Context Learning: An Encoder Decoder Perspective はコメントを受け付けていません

GCoT: Chain-of-Thought Prompt Learning for Graphs

要約

チェーンオブシューター(COT)プロンプトは、自然言語処理(NLP)で顕著な成功を収めています。
ただし、その広大な可能性は、グラフに対してほとんど未開拓のままです。
これは興味深い質問を提起します。グラフを段階的に学習するグラフモデルを導くためのグラフをプロンプトするコットを設計するにはどうすればよいですか?
一方では、自然言語とは異なり、グラフは非線形であり、複雑なトポロジー構造によって特徴付けられます。
一方、多くのグラフにはテキストデータがないため、言語ベースのCOTプロンプトを策定することが困難です。
この作業では、テキストのないグラフであるGCOTの最初のCOTプロンプト学習フレームワークを提案します。
具体的には、各下流タスクの適応プロセスを一連の推論ステップに分解します。各ステップは、プロンプトベースの推論、「思考」生成、および思考条件付き迅速な学習で構成されます。
ステップはNLPでコットを模倣していますが、正確なメカニズムは大きく異なります。
具体的には、各ステップで、プロンプトとともに入力グラフがプロンプトとともに、プロンプトベースの推論のために事前に訓練されたグラフエンコーダーに供給されます。
次に、エンコーダーの隠されたレイヤーを集約して「思考」を構築します。これにより、現在のステップで各ノードの作業状態がキャプチャされます。
この考えを条件に、現在の状態に基づいて各ノードに固有のプロンプトを学習します。
これらのプロンプトは、次の推論ステップに供給され、サイクルを繰り返します。
GCOTの有効性を評価および分析するために、8つのパブリックデータセットで包括的な実験を実施し、アプローチの利点を実証します。

要約(オリジナル)

Chain-of-thought (CoT) prompting has achieved remarkable success in natural language processing (NLP). However, its vast potential remains largely unexplored for graphs. This raises an interesting question: How can we design CoT prompting for graphs to guide graph models to learn step by step? On one hand, unlike natural languages, graphs are non-linear and characterized by complex topological structures. On the other hand, many graphs lack textual data, making it difficult to formulate language-based CoT prompting. In this work, we propose the first CoT prompt learning framework for text-free graphs, GCoT. Specifically, we decompose the adaptation process for each downstream task into a series of inference steps, with each step consisting of prompt-based inference, “thought” generation, and thought-conditioned prompt learning. While the steps mimic CoT prompting in NLP, the exact mechanism differs significantly. Specifically, at each step, an input graph, along with a prompt, is first fed into a pre-trained graph encoder for prompt-based inference. We then aggregate the hidden layers of the encoder to construct a “thought”, which captures the working state of each node in the current step. Conditioned on this thought, we learn a prompt specific to each node based on the current state. These prompts are fed into the next inference step, repeating the cycle. To evaluate and analyze the effectiveness of GCoT, we conduct comprehensive experiments on eight public datasets, which demonstrate the advantage of our approach.

arxiv情報

著者 Xingtong Yu,Chang Zhou,Zhongwei Kuai,Xinming Zhang,Yuan Fang
発行日 2025-06-02 14:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | GCoT: Chain-of-Thought Prompt Learning for Graphs はコメントを受け付けていません

Exploring Flow-Lenia Universes with a Curiosity-driven AI Scientist: Discovering Diverse Ecosystem Dynamics

要約

フローレニアにおけるシステムレベルのダイナミクスの自動発見の方法を提示します。これは、質量保存と好奇心を使用したパラメーターのローカリゼーションを備えた連続したセルラーオートマトン(CA) – 駆動型AI科学者です。
この方法は、CASの進化的および生態系ダイナミクスの自己組織化につながるプロセスを明らかにすることを目的としています。
Leniaのダイバーシティ検索アルゴリズムを使用して、自己組織化された個々のパターンを見つけ、異なる相互作用パターンをサポートする大きな環境に拡張する以前の作業に基づいて構築します。
進化的活動、圧縮ベースの複雑さ、マルチスケールエントロピーなどのシミュレーション全体のメトリックを使用して、本質的に動機付けられた目標探査プロセス(IMGEPS)を適応させ、多様なフローレニア環境の探索を促進します。
2つの実験で方法をテストし、ランダム検索と比較して大幅に多様なダイナミクスを照らす能力を示します。
生態系シミュレーションが、以前の個々のパターン検索と分析によって捉えられない複雑な集団行動の自己組織化をどのように可能にするかを示す定性的結果を示します。
インタラクティブな探索ツールを使用して自動発見を補完し、科学的調査のための効果的な人間と協力的なワークフローを作成します。
フローレニアで特に実証されていますが、この方法論は、緊急の集合的特性を理解することが興味深い他のパラメーター化可能な複雑なシステムに潜在的に適用可能なフレームワークを提供します。

要約(オリジナル)

We present a method for the automated discovery of system-level dynamics in Flow-Lenia–a continuous cellular automaton (CA) with mass conservation and parameter localization-using a curiosity–driven AI scientist. This method aims to uncover processes leading to self-organization of evolutionary and ecosystemic dynamics in CAs. We build on previous work which uses diversity search algorithms in Lenia to find self-organized individual patterns, and extend it to large environments that support distinct interacting patterns. We adapt Intrinsically Motivated Goal Exploration Processes (IMGEPs) to drive exploration of diverse Flow-Lenia environments using simulation-wide metrics, such as evolutionary activity, compression-based complexity, and multi-scale entropy. We test our method in two experiments, showcasing its ability to illuminate significantly more diverse dynamics compared to random search. We show qualitative results illustrating how ecosystemic simulations enable self-organization of complex collective behaviors not captured by previous individual pattern search and analysis. We complement automated discovery with an interactive exploration tool, creating an effective human-AI collaborative workflow for scientific investigation. Though demonstrated specifically with Flow-Lenia, this methodology provides a framework potentially applicable to other parameterizable complex systems where understanding emergent collective properties is of interest.

arxiv情報

著者 Thomas Michel,Marko Cvjetko,Gautier Hamon,Pierre-Yves Oudeyer,Clément Moulin-Frier
発行日 2025-06-02 14:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Exploring Flow-Lenia Universes with a Curiosity-driven AI Scientist: Discovering Diverse Ecosystem Dynamics はコメントを受け付けていません

GD doesn’t make the cut: Three ways that non-differentiability affects neural network training

要約

このホワイトペーパーでは、微分可能な機能の非分化不可能な関数(NGDMS)と古典的な勾配下脱直(GDS)に適用される勾配法の基本的な区別を批判的に検証し、現在の深い学習最適化理論の重要なギャップを明らかにします。
NGDMSはGDSと比較して著しく異なる収束特性を示し、$ L-SMOORTHNESS $に基づいて非滑らかなニューラルネットワークに基づいた広範なニューラルネットワーク収束文献の適用性に強く挑戦することを実証します。
私たちの分析では、$ l_ {1} $ – 正規化された問題に対するNDGMソリューションの逆説的な挙動が明らかになります。
この発見は、広く採用された$ L_ {1} $ネットワーク剪定のペナルティテクニックを広く採用しています。
さらに、RMSPropのような最適化アルゴリズムが微分可能で非拡張性のないコンテキストで同様に動作するという一般的な仮定に挑戦します。
安定性現象の端で拡大すると、Lipschitzの連続凸誘導性関数を含む、より広いクラスの機能でその発生を示します。
この発見は、非凸で非拡散性のあるニューラルネットワーク、特にRelu Activationsを使用しているものにおけるその関連性と解釈に関する重要な疑問を提起します。
私たちの仕事は、強力な滑らかさの仮定への過度の依存に起因する、影響力のある文献におけるNDGMの重要な誤解を特定しています。
これらの調査結果は、深い学習における最適化ダイナミクスの再評価を必要とし、これらの複雑なシステムを分析する際に、より微妙な理論的基礎の重要な必要性を強調します。

要約(オリジナル)

This paper critically examines the fundamental distinctions between gradient methods applied to non-differentiable functions (NGDMs) and classical gradient descents (GDs) for differentiable functions, revealing significant gaps in current deep learning optimization theory. We demonstrate that NGDMs exhibit markedly different convergence properties compared to GDs, strongly challenging the applicability of extensive neural network convergence literature based on $L-smoothness$ to non-smooth neural networks. Our analysis reveals paradoxical behavior of NDGM solutions for $L_{1}$-regularized problems, where increasing regularization counterintuitively leads to larger $L_{1}$ norms of optimal solutions. This finding calls into question widely adopted $L_{1}$ penalization techniques for network pruning. We further challenge the common assumption that optimization algorithms like RMSProp behave similarly in differentiable and non-differentiable contexts. Expanding on the Edge of Stability phenomenon, we demonstrate its occurrence in a broader class of functions, including Lipschitz continuous convex differentiable functions. This finding raises important questions about its relevance and interpretation in non-convex, non-differentiable neural networks, particularly those using ReLU activations. Our work identifies critical misunderstandings of NDGMs in influential literature, stemming from an overreliance on strong smoothness assumptions. These findings necessitate a reevaluation of optimization dynamics in deep learning, emphasizing the crucial need for more nuanced theoretical foundations in analyzing these complex systems.

arxiv情報

著者 Siddharth Krishna Kumar
発行日 2025-06-02 00:49:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | GD doesn’t make the cut: Three ways that non-differentiability affects neural network training はコメントを受け付けていません

The Dual Power of Interpretable Token Embeddings: Jailbreaking Attacks and Defenses for Diffusion Model Unlearning

要約

拡散モデルの顕著な生成能力にもかかわらず、最近の研究では、特定のテキストプロンプトが与えられた場合、それらが記憶して有害なコンテンツを作成できることが示されています。
有害な概念を学ぶことでこの問題を軽減するために微調整されたアプローチが開発されましたが、これらの方法は、侵入攻撃によって簡単に回避できます。
これは、有害な概念がモデルから完全に消去されていないことを意味します。
ただし、既存の脱獄攻撃方法は、効果的ですが、非学習されたモデルがまだ概念を保持している理由に関する解釈可能性を欠いているため、防衛戦略の開発が妨げられています。
この作業では、解釈可能な攻撃トークン埋め込みの直交セットを学習する攻撃方法を提案することにより、これらの制限に対処します。
攻撃トークンの埋め込みは、人間の解釈可能なテキスト要素に分解され、非学習されたモデルが暗黙のテキストコンポーネントを通じてターゲット概念を保持していることを明らかにします。
さらに、これらの攻撃トークンの埋め込みは強力で、テキストプロンプト、初期ノイズ、および非学習されたモデルを越えて転送可能であり、未学習モデルは予想よりも脆弱であることを強調しています。
最後に、私たちの解釈可能な攻撃からの洞察に基づいて、私たちは提案されている攻撃と既存の刑務所の両方の攻撃の両方に対して、未学習モデルを保護する防御方法を開発します。
広範な実験結果は、攻撃戦略と防衛戦略の有効性を示しています。

要約(オリジナル)

Despite the remarkable generation capabilities of diffusion models, recent studies have shown that they can memorize and create harmful content when given specific text prompts. Although fine-tuning approaches have been developed to mitigate this issue by unlearning harmful concepts, these methods can be easily circumvented through jailbreaking attacks. This implies that the harmful concept has not been fully erased from the model. However, existing jailbreaking attack methods, while effective, lack interpretability regarding why unlearned models still retain the concept, thereby hindering the development of defense strategies. In this work, we address these limitations by proposing an attack method that learns an orthogonal set of interpretable attack token embeddings. The attack token embeddings can be decomposed into human-interpretable textual elements, revealing that unlearned models still retain the target concept through implicit textual components. Furthermore, these attack token embeddings are powerful and transferable across text prompts, initial noises, and unlearned models, emphasizing that unlearned models are more vulnerable than expected. Finally, building on the insights from our interpretable attack, we develop a defense method to protect unlearned models against both our proposed and existing jailbreaking attacks. Extensive experimental results demonstrate the effectiveness of our attack and defense strategies.

arxiv情報

著者 Siyi Chen,Yimeng Zhang,Sijia Liu,Qing Qu
発行日 2025-06-02 01:10:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | The Dual Power of Interpretable Token Embeddings: Jailbreaking Attacks and Defenses for Diffusion Model Unlearning はコメントを受け付けていません

RAFT: Robust Augmentation of FeaTures for Image Segmentation

要約

画像セグメンテーションは、シーンの理解のための強力なコンピュータービジョン技術です。
ただし、現実世界の展開は、高品質で細心の注意を払ってラベル付けされたデータセットの必要性によって阻害されます。
合成データは、手動のデータ収集と注釈の必要性を減らしながら、高品質のラベルを提供します。
ただし、合成データでトレーニングされた深いニューラルネットワークは、多くの場合、Syn2realの問題に直面しているため、現実世界の展開のパフォーマンスが低下します。
画像セグメンテーションの前述のギャップを緩和するために、データと機能の増強とアクティブ学習を介した最小限の実世界データを使用して、画像セグメンテーションモデルを適応させるための新しいフレームワークであるRaftを提案します。
RAFTを検証するために、合成から現実的な「Synthia-> Cityscapes」および「GTAV-> Cityscapes」ベンチマークの実験を実行します。
私たちはなんとか以前の最先端のハローを上回りました。
Synthia-> Cityscapesは、2.1%/79.9%のドメイン適応によりMIOU*の改善を経験し、GTAV-> CityscapesはMIOUで0.4%/78.2%の改善を経験します。
さらに、「Cityscapes-> ACDC」の実際のベンチマークでアプローチをテストし、再びHaloを上回り、1.3%/73.2%の適応時にMIOUの利益を上げます。
最後に、最終的な移籍MIOUでの割り当てられた注釈予算とRAFTのさまざまなコンポーネントの効果を調べます。

要約(オリジナル)

Image segmentation is a powerful computer vision technique for scene understanding. However, real-world deployment is stymied by the need for high-quality, meticulously labeled datasets. Synthetic data provides high-quality labels while reducing the need for manual data collection and annotation. However, deep neural networks trained on synthetic data often face the Syn2Real problem, leading to poor performance in real-world deployments. To mitigate the aforementioned gap in image segmentation, we propose RAFT, a novel framework for adapting image segmentation models using minimal labeled real-world data through data and feature augmentations, as well as active learning. To validate RAFT, we perform experiments on the synthetic-to-real ‘SYNTHIA->Cityscapes’ and ‘GTAV->Cityscapes’ benchmarks. We managed to surpass the previous state of the art, HALO. SYNTHIA->Cityscapes experiences an improvement in mIoU* upon domain adaptation of 2.1%/79.9%, and GTAV->Cityscapes experiences a 0.4%/78.2% improvement in mIoU. Furthermore, we test our approach on the real-to-real benchmark of ‘Cityscapes->ACDC’, and again surpass HALO, with a gain in mIoU upon adaptation of 1.3%/73.2%. Finally, we examine the effect of the allocated annotation budget and various components of RAFT upon the final transfer mIoU.

arxiv情報

著者 Edward Humes,Xiaomin Lin,Uttej Kallakuri,Tinoosh Mohsenin
発行日 2025-06-02 02:27:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RAFT: Robust Augmentation of FeaTures for Image Segmentation はコメントを受け付けていません

Probing Equivariance and Symmetry Breaking in Convolutional Networks

要約

この作業では、明示的な構造的事前、特にグループの等分散のトレードオフを探ります。
理論分析と包括的な経験的研究を通じてこれに対処します。
制御された公正な比較を有効にするために、等変量モデルと非拡張モデルの異なるバリエーションを可能にする統一されたグループの畳み込みアーキテクチャである\ texttt {rapidash}を導入します。
我々の結果は、タスクのジオメトリに合わせた場合、より制約された等縁モデルが制約の少ない代替案よりも優れていることを示唆しており、表現容量を増やしてもパフォーマンスギャップが完全に排除されないことを示唆しています。
多様なデータセット全体でセグメンテーション、回帰、生成などのタスクを通じて、等聴力と対称性の壊れたモデルのパフォーマンスが向上しています。
幾何学的リファレンスフレームを介した明示的\ textIT {対称性破壊}は一貫してパフォーマンスを向上させますが、\ textIT {break equivariance}は、タスクジオメトリに合わせた場合に役立ちます。
私たちの結果は、モデル選択のためにより微妙な方法を提供するタスク固有のパフォーマンストレンドを提供します。

要約(オリジナル)

In this work, we explore the trade-offs of explicit structural priors, particularly group equivariance. We address this through theoretical analysis and a comprehensive empirical study. To enable controlled and fair comparisons, we introduce \texttt{Rapidash}, a unified group convolutional architecture that allows for different variants of equivariant and non-equivariant models. Our results suggest that more constrained equivariant models outperform less constrained alternatives when aligned with the geometry of the task, and increasing representation capacity does not fully eliminate performance gaps. We see improved performance of models with equivariance and symmetry-breaking through tasks like segmentation, regression, and generation across diverse datasets. Explicit \textit{symmetry breaking} via geometric reference frames consistently improves performance, while \textit{breaking equivariance} through geometric input features can be helpful when aligned with task geometry. Our results provide task-specific performance trends that offer a more nuanced way for model selection.

arxiv情報

著者 Sharvaree Vadgama,Mohammad Mohaiminul Islam,Domas Buracas,Christian Shewmake,Artem Moskalev,Erik Bekkers
発行日 2025-06-02 02:43:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Probing Equivariance and Symmetry Breaking in Convolutional Networks はコメントを受け付けていません

Mixed-View Panorama Synthesis using Geospatially Guided Diffusion

要約

混合ビューパノラマ合成のタスクを紹介します。ここでは、入力パノラマの小さなセットとその地域の衛星画像を考慮して、新しいパノラマを合成することが目標です。
これは、入力パノラマ(同視合成)または入力衛星画像(クロスビュー合成)のみを使用する以前の研究とは対照的です。
混合ビュー設定は、世界中の任意の場所のパノラマ統合をサポートするのに最も自然なものであると主張しています。
重大な課題は、パノラマの空間的カバレッジが不均一であり、世界の多くの地域で入手できるパノラマはほとんどないことです。
拡散ベースのモデリングと、利用可能なすべての入力画像から情報を抽出するための注意ベースのアーキテクチャを利用するアプローチを紹介します。
実験結果は、提案された方法の有効性を示しています。
特に、私たちのモデルは、利用可能なパノラマがまばらであるか、合成しようとしているパノラマの場所から遠く離れている場合にシナリオを処理できます。
プロジェクトページは、https://mixed-view.github.ioで入手できます

要約(オリジナル)

We introduce the task of mixed-view panorama synthesis, where the goal is to synthesize a novel panorama given a small set of input panoramas and a satellite image of the area. This contrasts with previous work which only uses input panoramas (same-view synthesis), or an input satellite image (cross-view synthesis). We argue that the mixed-view setting is the most natural to support panorama synthesis for arbitrary locations worldwide. A critical challenge is that the spatial coverage of panoramas is uneven, with few panoramas available in many regions of the world. We introduce an approach that utilizes diffusion-based modeling and an attention-based architecture for extracting information from all available input imagery. Experimental results demonstrate the effectiveness of our proposed method. In particular, our model can handle scenarios when the available panoramas are sparse or far from the location of the panorama we are attempting to synthesize. The project page is available at https://mixed-view.github.io

arxiv情報

著者 Zhexiao Xiong,Xin Xing,Scott Workman,Subash Khanal,Nathan Jacobs
発行日 2025-06-02 02:43:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mixed-View Panorama Synthesis using Geospatially Guided Diffusion はコメントを受け付けていません

NUC-Net: Non-uniform Cylindrical Partition Network for Efficient LiDAR Semantic Segmentation

要約

LIDARセマンティックセグメンテーションは、自律運転において重要な役割を果たします。
LIDARセマンティックセグメンテーション用の既存のボクセルベースの方法は、3D LIDARポイントクラウドに均一なパーティションを適用して、デカルト/円筒座標に基づいて構造化された表現を形成します。
これらの方法は印象的なパフォーマンスを示していますが、既存のボクセルベースの方法の欠点は2つの側面に残ります。(1)十分な量のボクセル解像度が必要であり、大量の計算コストとメモリ消費をもたらします。
(2)Lidar Point Cloudの不均衡な点分布をうまく処理しません。
この論文では、上記の課題に取り組むために、Nuc-Netという名前の不均一な円筒形のパーティションネットワークを提案します。
具体的には、放射状軸を不均一に分割し、代表的で効率的なボクセル表現を生成するための間隔(API)メソッドの算術進行を提案します。
さらに、コンテキスト情報を改善するために、不均一なマルチスケール集約方法を提案します。
私たちの方法は、SemantickittiおよびNuscenesデータセットの最先端のパフォーマンスを、はるかに速い速度とトレーニング時間をはるかに短くします。
また、私たちの方法は、Lidarセマンティックセグメンテーションの一般的なコンポーネントになる可能性があります。これにより、均一なカウンターパートの精度と効率の両方が$ 4 \ Times $トレーニングのより速く、$ 2 \ Times $ GPUメモリ削減と$ 3 \ Times $ Inference Speepupの両方を大幅に向上させます。
さらに、NUCが効果的である理由と、ポイント分布がパフォーマンスにどのように影響するかを理解するための理論的分析を提供します。
コードは\ href {https://github.com/alanwxz/nuc-net} {https://github.com/alanwxz/nuc-net}で入手できます。

要約(オリジナル)

LiDAR semantic segmentation plays a vital role in autonomous driving. Existing voxel-based methods for LiDAR semantic segmentation apply uniform partition to the 3D LiDAR point cloud to form a structured representation based on cartesian/cylindrical coordinates. Although these methods show impressive performance, the drawback of existing voxel-based methods remains in two aspects: (1) it requires a large enough input voxel resolution, which brings a large amount of computation cost and memory consumption. (2) it does not well handle the unbalanced point distribution of LiDAR point cloud. In this paper, we propose a non-uniform cylindrical partition network named NUC-Net to tackle the above challenges. Specifically, we propose the Arithmetic Progression of Interval (API) method to non-uniformly partition the radial axis and generate the voxel representation which is representative and efficient. Moreover, we propose a non-uniform multi-scale aggregation method to improve contextual information. Our method achieves state-of-the-art performance on SemanticKITTI and nuScenes datasets with much faster speed and much less training time. And our method can be a general component for LiDAR semantic segmentation, which significantly improves both the accuracy and efficiency of the uniform counterpart by $4 \times$ training faster and $2 \times$ GPU memory reduction and $3 \times$ inference speedup. We further provide theoretical analysis towards understanding why NUC is effective and how point distribution affects performance. Code is available at \href{https://github.com/alanWXZ/NUC-Net}{https://github.com/alanWXZ/NUC-Net}.

arxiv情報

著者 Xuzhi Wang,Wei Feng,Lingdong Kong,Liang Wan
発行日 2025-06-02 02:51:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | NUC-Net: Non-uniform Cylindrical Partition Network for Efficient LiDAR Semantic Segmentation はコメントを受け付けていません

Generating by Understanding: Neural Visual Generation with Logical Symbol Groundings

要約

論理的推論システムによってニューラルの視覚生成モデルを制御できるようにすることは、忠実さ、透明性、および一般化可能性を改善するために有望です。
このような論理統合モデルを構築するために、誘ductive視覚生成(Abdgen)アプローチを提案します。
ベクトル定量化されたシンボル接地メカニズムと、対応する解き込みトレーニング方法が導入され、生成にわたる論理シンボルの制御可能性が向上します。
さらに、2つの論理的誘導方法を提案して、アプローチにラベル付けされたトレーニングデータをほとんど必要とし、データからの潜在的な論理生成ルールの誘導をサポートする必要があります。
私たちのアプローチを利用して、ゼロから学習するか、事前に訓練されたモデルを直接利用することにより、さまざまな神経生成モデルを論理的推論システムと統合できることを実験的に示します。
コードはhttps://github.com/future-item/abdgenでリリースされます。

要約(オリジナル)

Making neural visual generative models controllable by logical reasoning systems is promising for improving faithfulness, transparency, and generalizability. We propose the Abductive visual Generation (AbdGen) approach to build such logic-integrated models. A vector-quantized symbol grounding mechanism and the corresponding disentanglement training method are introduced to enhance the controllability of logical symbols over generation. Furthermore, we propose two logical abduction methods to make our approach require few labeled training data and support the induction of latent logical generative rules from data. We experimentally show that our approach can be utilized to integrate various neural generative models with logical reasoning systems, by both learning from scratch or utilizing pre-trained models directly. The code is released at https://github.com/future-item/AbdGen.

arxiv情報

著者 Yifei Peng,Zijie Zha,Yu Jin,Zhexu Luo,Wang-Zhou Dai,Zhong Ren,Yao-Xiang Ding,Kun Zhou
発行日 2025-06-02 02:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | Generating by Understanding: Neural Visual Generation with Logical Symbol Groundings はコメントを受け付けていません