FZOO: Fast Zeroth-Order Optimizer for Fine-Tuning Large Language Models towards Adam-Scale Speed

要約

大型言語モデル(LLMS)の微調整は、GPUメモリボトルネックに直面することがよくあります。Adamのような1次オプティマイザーの後方パスは、メモリの使用量を推論レベルの10倍以上に増やします(たとえば、OPT-30Bで633 GB)。
Zeroth-Order(ZO)オプティマイザーは、前方パスからのみ勾配を推定することでこのコストを回避しますが、Mezoのような既存の方法は通常、収束するためにさらに多くのステップを必要とします。
ZOの速度とメモリ間のこのトレードオフは、基本的に改善できますか?
正規化されたSGDは、Adamよりもメモリ効率が大きい強力な経験的パフォーマンスを示しています。
これに照らして、Adamスケールの速度に向けて速いゼロオーダーオプティマイザーであるFZOOを紹介します。
FZOOは、バッチ損失の標準偏差に基づいてステップサイズを適応するバッチ片側の推定値を使用することにより、収束に必要な合計フォワードパスを減らします。
また、CUDAの並列処理と組み合わせたRademacherランダムベクトル摂動を使用して、バッチごとの計算を加速します。
Roberta-Large、OPT(350M-66B)、PHI-2、およびLLAMA3を含む多様なモデルでの広範な実験は、11のタスクを介してFZOOの有効性を検証します。
平均して、FZOOはメゾを精度で3%上回り、3倍の前方パスを必要とします。
Roberta-Largeの場合、FZOOは精度が5.6%の平均改善と、Mezoと比較して前方パスの18倍の減少を達成し、Adamに匹敵する収束速度を達成します。
また、正規化されたSGD更新ルールとその収束保証とFZOOの正式な同等性を証明する理論分析も提供します。
FZOOは、PEFTテクニックにスムーズに統合され、さらに大きなメモリの節約を可能にします。
全体として、我々の結果は、シングルGPU、高速、フルパラメーターの微調整の実用的であり、メモリ効率の高いトレーニングに関する将来の作業を指摘しています。

要約(オリジナル)

Fine-tuning large language models (LLMs) often faces GPU memory bottlenecks: the backward pass of first-order optimizers like Adam increases memory usage to more than 10 times the inference level (e.g., 633 GB for OPT-30B). Zeroth-order (ZO) optimizers avoid this cost by estimating gradients only from forward passes, yet existing methods like MeZO usually require many more steps to converge. Can this trade-off between speed and memory in ZO be fundamentally improved? Normalized-SGD demonstrates strong empirical performance with greater memory efficiency than Adam. In light of this, we introduce FZOO, a Fast Zeroth-Order Optimizer toward Adam-Scale Speed. FZOO reduces the total forward passes needed for convergence by employing batched one-sided estimates that adapt step sizes based on the standard deviation of batch losses. It also accelerates per-batch computation through the use of Rademacher random vector perturbations coupled with CUDA’s parallel processing. Extensive experiments on diverse models, including RoBERTa-large, OPT (350M-66B), Phi-2, and Llama3, across 11 tasks validate FZOO’s effectiveness. On average, FZOO outperforms MeZO by 3 percent in accuracy while requiring 3 times fewer forward passes. For RoBERTa-large, FZOO achieves average improvements of 5.6 percent in accuracy and an 18 times reduction in forward passes compared to MeZO, achieving convergence speeds comparable to Adam. We also provide theoretical analysis proving FZOO’s formal equivalence to a normalized-SGD update rule and its convergence guarantees. FZOO integrates smoothly into PEFT techniques, enabling even larger memory savings. Overall, our results make single-GPU, high-speed, full-parameter fine-tuning practical and point toward future work on memory-efficient pre-training.

arxiv情報

著者 Sizhe Dang,Yangyang Guo,Yanjun Zhao,Haishan Ye,Xiaodong Zheng,Guang Dai,Ivor Tsang
発行日 2025-06-10 17:56:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | FZOO: Fast Zeroth-Order Optimizer for Fine-Tuning Large Language Models towards Adam-Scale Speed はコメントを受け付けていません

AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions

要約

大規模な言語モデル(LLM)が日常ドメインとハイステークスの両方のドメインの両方で確実に展開されるため、いつ回答しないかを知ることは、正しく答えることと同様に重要です。
実世界のユーザークエリは、不足、不適切、または根本的に答えられないため、不確実性について推論し、選択的に棄権するためにLLMを必要とします。
ただし、現代のLLMの体系的な評価フレームワークなしでは、棄権は依然として容認されていません。
この作業では、未知の回答のある質問、虚偽の前提、主観的解釈、時代遅れの情報を含む、20の多様なデータセットにわたって棄権を全体的に評価するための大規模なベンチマークであるabstentionbenchを紹介します。
20のフロンティアLLMSを評価すると、棄権が未解決の問題であり、スケーリングモデルがほとんど役に立たない問題が明らかになります。
最近の理由LLMは、複雑な問題解決で印象的な結果を示していますが、驚くべきことに、推論モデルが明示的に訓練されている数学と科学のドメインであっても、微調整が棄権(平均して24ドル\%$)が劣化することがわかります。
慎重に作成されたシステムプロンプトは、実際には棄権を後押しする可能性がありますが、モデルの不確実性について推論することができないことを解決しないことがわかります。
abstentionbenchをリリースして、LLMの信頼性の進歩に関する研究を促進します。

要約(オリジナル)

For Large Language Models (LLMs) to be reliably deployed in both everyday and high-stakes domains, knowing when not to answer is equally critical as answering correctly. Real-world user queries, which can be underspecified, ill-posed, or fundamentally unanswerable, require LLMs to reason about uncertainty and selectively abstain — i.e., refuse to answer definitively. However, abstention remains understudied, without a systematic evaluation framework for modern LLMs. In this work, we introduce AbstentionBench, a large-scale benchmark for holistically evaluating abstention across 20 diverse datasets, including questions with unknown answers, underspecification, false premises, subjective interpretations, and outdated information. Evaluating 20 frontier LLMs reveals abstention is an unsolved problem, and one where scaling models is of little use. While recent reasoning LLMs have shown impressive results in complex problem solving, surprisingly, we find that reasoning fine-tuning degrades abstention (by $24\%$ on average), even for math and science domains on which reasoning models are explicitly trained. We find that while a carefully crafted system prompt can boost abstention in practice, it does not resolve models’ fundamental inability to reason about uncertainty. We release AbstentionBench to foster research into advancing LLM reliability.

arxiv情報

著者 Polina Kirichenko,Mark Ibrahim,Kamalika Chaudhuri,Samuel J. Bell
発行日 2025-06-10 17:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions はコメントを受け付けていません

Evolutionary Policy Optimization

要約

ポリシー補強学習(RL)アルゴリズムは、強力な漸近パフォーマンスとトレーニングの安定性に広く使用されていますが、追加の並列環境により、政策誘発性の多様性が限られているため冗長データが得られるため、より大きなバッチサイズでスケーリングするのに苦労しています。
対照的に、進化的アルゴリズム(EAS)は自然にスケーリングし、ランダム化された集団ベースの検索を介して探索を促進しますが、多くの場合、サンプルは効率的です。
EASのスケーラビリティと多様性を政策勾配のパフォーマンスと安定性を組み合わせたハイブリッドアルゴリズムである進化政策最適化(EPO)を提案します。
EPOは、潜在変数を条件付けられたエージェントの集団を維持し、コヒーレンスとメモリ効率のためにアクターと批判的なネットワークパラメーターを共有し、多様な経験をマスターエージェントに集約します。
巧妙な操作、足の移動、および古典的な制御のタスク全体で、EPOは、サンプル効率、漸近パフォーマンス、およびスケーラビリティにおける最先端のベースラインよりも優れています。

要約(オリジナル)

On-policy reinforcement learning (RL) algorithms are widely used for their strong asymptotic performance and training stability, but they struggle to scale with larger batch sizes, as additional parallel environments yield redundant data due to limited policy-induced diversity. In contrast, Evolutionary Algorithms (EAs) scale naturally and encourage exploration via randomized population-based search, but are often sample-inefficient. We propose Evolutionary Policy Optimization (EPO), a hybrid algorithm that combines the scalability and diversity of EAs with the performance and stability of policy gradients. EPO maintains a population of agents conditioned on latent variables, shares actor-critic network parameters for coherence and memory efficiency, and aggregates diverse experiences into a master agent. Across tasks in dexterous manipulation, legged locomotion, and classic control, EPO outperforms state-of-the-art baselines in sample efficiency, asymptotic performance, and scalability.

arxiv情報

著者 Jianren Wang,Yifan Su,Abhinav Gupta,Deepak Pathak
発行日 2025-06-10 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Evolutionary Policy Optimization はコメントを受け付けていません

Agentic Neural Networks: Self-Evolving Multi-Agent Systems via Textual Backpropagation

要約

複数の大規模な言語モデル(LLMS)を活用すると、複雑で高次元のタスクに対処するのに効果的であることが証明されていますが、現在のアプローチは、静的で手動で設計されたマルチエージェント構成に依存することがよくあります。
これらの制約を克服するために、マルチエージェントコラボレーションを層状ニューラルネットワークアーキテクチャとして概念化するフレームワークであるエージェントニューラルネットワーク(ANN)を提示します。
この設計では、各エージェントはノードとして動作し、各レイヤーは特定のサブタスクに焦点を当てた協調的な「チーム」を形成します。
エージェントニューラルネットワークは、2フェーズの最適化戦略に従います。(1)ニューラルネットワークフォワードパスからのフォワードフェーズドラウングインスピレーション、タスクはサブタスクに動的に分解され、適切な集約法を持つ協同エージェントチームがレイヤーごとに層ごとに構築されます。
(2)後方位相監督のバックプロパゲーションで、イテラティブなフィードバックを通じてグローバルおよびローカルの両方のコラボレーションを改良し、エージェントが役割、プロンプト、および調整を自己進化させることができます。
このニューロシンボリックアプローチにより、ANNはトレーニング後に新規または専門のエージェントチームを作成し、精度と適応性の顕著な利益を提供します。
4つのベンチマークデータセットで、Annは同じ構成の下で主要なマルチエージェントベースラインを上回り、一貫したパフォーマンスの改善を示しています。
私たちの調査結果は、ANNがLLMの共同機能とニューラルネットワークの原則の効率と柔軟性を組み合わせたマルチエージェントシステムのスケーラブルなデータ駆動型フレームワークを提供することを示しています。
フレームワーク全体をオープンソースする予定です。

要約(オリジナル)

Leveraging multiple Large Language Models(LLMs) has proven effective for addressing complex, high-dimensional tasks, but current approaches often rely on static, manually engineered multi-agent configurations. To overcome these constraints, we present the Agentic Neural Network(ANN), a framework that conceptualizes multi-agent collaboration as a layered neural network architecture. In this design, each agent operates as a node, and each layer forms a cooperative ‘team’ focused on a specific subtask. Agentic Neural Network follows a two-phase optimization strategy: (1) Forward Phase-Drawing inspiration from neural network forward passes, tasks are dynamically decomposed into subtasks, and cooperative agent teams with suitable aggregation methods are constructed layer by layer. (2) Backward Phase-Mirroring backpropagation, we refine both global and local collaboration through iterative feedback, allowing agents to self-evolve their roles, prompts, and coordination. This neuro-symbolic approach enables ANN to create new or specialized agent teams post-training, delivering notable gains in accuracy and adaptability. Across four benchmark datasets, ANN surpasses leading multi-agent baselines under the same configurations, showing consistent performance improvements. Our findings indicate that ANN provides a scalable, data-driven framework for multi-agent systems, combining the collaborative capabilities of LLMs with the efficiency and flexibility of neural network principles. We plan to open-source the entire framework.

arxiv情報

著者 Xiaowen Ma,Chenyang Lin,Yao Zhang,Volker Tresp,Yunpu Ma
発行日 2025-06-10 17:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA | Agentic Neural Networks: Self-Evolving Multi-Agent Systems via Textual Backpropagation はコメントを受け付けていません

ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering

要約

AIシステムは、パッケージ配信ルーティング、乗組員のスケジューリング、工場生産計画、パワーグリッドバランスなどのドメインでハード最適化問題のためにアルゴリズムエンジニアリングでどの程度機能しますか?
スコアベースのアルゴリズムプログラミングコンテストでAIシステムを評価するための新しいベンチマークであるAle-Benchを紹介します。
Atcoder Heuristic Contestsからの実際のタスクを利用して、Ale-Benchは計算的に硬く、既知の正確な解決策を認めない最適化の問題を提示します。
短期間、パス/フェイルコーディングベンチマークとは異なり、エールベンチは長期にわたる視野にわたって反復的なソリューションの改良を奨励します。
当社のソフトウェアフレームワークは、テスト実行フィードバックと視覚化を活用するインタラクティブなエージェントアーキテクチャをサポートしています。
フロンティアLLMSの評価により、特定の問題で高性能を示しているが、問題と長老の問題解決能力の一貫性の観点から、顕著なギャップは人間と比較して残っていることが明らかになりました。
これは、このベンチマークが将来のAIの進歩を促進する必要性を強調しています。

要約(オリジナル)

How well do AI systems perform in algorithm engineering for hard optimization problems in domains such as package-delivery routing, crew scheduling, factory production planning, and power-grid balancing? We introduce ALE-Bench, a new benchmark for evaluating AI systems on score-based algorithmic programming contests. Drawing on real tasks from the AtCoder Heuristic Contests, ALE-Bench presents optimization problems that are computationally hard and admit no known exact solution. Unlike short-duration, pass/fail coding benchmarks, ALE-Bench encourages iterative solution refinement over long time horizons. Our software framework supports interactive agent architectures that leverage test-run feedback and visualizations. Our evaluation of frontier LLMs revealed that while they demonstrate high performance on specific problems, a notable gap remains compared to humans in terms of consistency across problems and long-horizon problem-solving capabilities. This highlights the need for this benchmark to foster future AI advancements.

arxiv情報

著者 Yuki Imajuku,Kohki Horie,Yoichi Iwata,Kensho Aoki,Naohiro Takahashi,Takuya Akiba
発行日 2025-06-10 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering はコメントを受け付けていません

A PDE-Based Image Dehazing Method via Atmospheric Scattering Theory

要約

このホワイトペーパーでは、シングルイメージの脱毛のための新しい部分微分方程式(PDE)フレームワークを紹介します。
大気散乱モデルを非ローカル正規化およびダークチャネル事前に統合することにより、改良されたPDEを提案します:\ [ – \ text {div} \ left(d(\ nabla u)\ nabla u \右) + \ lambda(t)g(t)g(u)= \ phi(i、t、a)\ fhere fhere d(\ nabl u +
\ epsilon)^{ – 1} $はエッジプレゼント拡散係数、$ g(u)$はガウス畳み込み演算子、$ \ lambda(t)$は送信マップ$ t $に基づく適応規則化パラメーターです。
Lax-Milgram定理を使用して、$ H_0^1(\ Omega)$の弱いソリューションの存在と一意性を証明し、Pytorch GPU計算によって加速される効率的な固定点反復スキームを実装します。
実験結果は、この方法が深いモデルのパラダイムに一般化できる有望な脱熱ソリューションであることを示しています。

要約(オリジナル)

This paper presents a novel partial differential equation (PDE) framework for single-image dehazing. By integrating the atmospheric scattering model with nonlocal regularization and dark channel prior, we propose the improved PDE: \[ -\text{div}\left(D(\nabla u)\nabla u\right) + \lambda(t) G(u) = \Phi(I,t,A) \] where $D(\nabla u) = (|\nabla u| + \epsilon)^{-1}$ is the edge-preserving diffusion coefficient, $G(u)$ is the Gaussian convolution operator, and $\lambda(t)$ is the adaptive regularization parameter based on transmission map $t$. We prove the existence and uniqueness of weak solutions in $H_0^1(\Omega)$ using Lax-Milgram theorem, and implement an efficient fixed-point iteration scheme accelerated by PyTorch GPU computation. The experimental results demonstrate that this method is a promising deghazing solution that can be generalized to the deep model paradigm.

arxiv情報

著者 Zhuoran Zheng
発行日 2025-06-10 13:43:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | A PDE-Based Image Dehazing Method via Atmospheric Scattering Theory はコメントを受け付けていません

Flow Diverse and Efficient: Learning Momentum Flow Matching via Stochastic Velocity Field Sampling

要約

最近、特にFlux 1.0やSD 3.0などの一連のRFモデルによって生成された驚くべき画像で、直線サンプリングにおける高効率の優位性により、整流フロー(RF)は、フローベースの拡散モデル間で新しい最先端の最先端の拡散モデルとして浮上しています。
ノイズの多いデータ分布と自然なデータ分布の間の直線接続は直感的で、速く、最適化が容易ですが、1)多様性の懸念につながります。
2)マルチスケールノイズモデリングの懸念。直線フローは、2つの分布$ \ bm \ pi_0 $および$ \ bm \ pi_1 $の間の定速度フィールド$ \ bm v $を最適化するだけであるため。
この作業では、離散化されたRFを提示します。これは、整流フローの新しいファミリー(各拡散ステップの以前の速度成分とランダム速度成分を参照するため、運動量流モデルとも呼ばれます)を提示します。
$ \ bm x $にノイズが直接重ねられている前のケースとは異なり、サブパスの速度$ \ bm v $にノイズを導入して、多様性とマルチスケールのノイズモデリング能力を改善するために方向を変えます。
いくつかの代表的なデータセットでの実験結果は、ランダム速度フィールドをサンプリングすることで一致するモーメンタムフローの学習が、多様で効率的な軌跡を生成し、一貫して高品質で多様な結果を生成できることを示しています。
コードはhttps://github.com/liuruixun/momentum-fmで入手できます。

要約(オリジナル)

Recently, the rectified flow (RF) has emerged as the new state-of-the-art among flow-based diffusion models due to its high efficiency advantage in straight path sampling, especially with the amazing images generated by a series of RF models such as Flux 1.0 and SD 3.0. Although a straight-line connection between the noisy and natural data distributions is intuitive, fast, and easy to optimize, it still inevitably leads to: 1) Diversity concerns, which arise since straight-line paths only cover a fairly restricted sampling space. 2) Multi-scale noise modeling concerns, since the straight line flow only needs to optimize the constant velocity field $\bm v$ between the two distributions $\bm\pi_0$ and $\bm\pi_1$. In this work, we present Discretized-RF, a new family of rectified flow (also called momentum flow models since they refer to the previous velocity component and the random velocity component in each diffusion step), which discretizes the straight path into a series of variable velocity field sub-paths (namely “momentum fields”) to expand the search space, especially when close to the distribution $p_\text{noise}$. Different from the previous case where noise is directly superimposed on $\bm x$, we introduce noise on the velocity $\bm v$ of the sub-path to change its direction in order to improve the diversity and multi-scale noise modeling abilities. Experimental results on several representative datasets demonstrate that learning momentum flow matching by sampling random velocity fields will produce trajectories that are both diverse and efficient, and can consistently generate high-quality and diverse results. Code is available at https://github.com/liuruixun/momentum-fm.

arxiv情報

著者 Zhiyuan Ma,Ruixun Liu,Sixian Liu,Jianjun Li,Bowen Zhou
発行日 2025-06-10 13:44:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Flow Diverse and Efficient: Learning Momentum Flow Matching via Stochastic Velocity Field Sampling はコメントを受け付けていません

CAD-Llama: Leveraging Large Language Models for Computer-Aided Design Parametric 3D Model Generation

要約

最近、大規模な言語モデル(LLM)が大幅に成功し、一般的なテキストを超えて生成能力をドメイン固有の領域に拡大することへの関心が高まっています。
この研究では、LLMを使用したコンピューター支援設計(CAD)モデルのパラメトリックシーケンスの生成を調査します。
CADモデルパラメーターは3次元空間の形状と直接相関するため、この努力はLLMを使用してパラメトリック3D形状を作成するための最初のステップを表します。
LLMSの手ごわい生成能力にもかかわらず、これらのモデルは、前処理段階でパラメトリックシーケンスに遭遇したり、3D構造の直接的な認識を持っていないため、このタスクは困難なままです。
これに対処するために、パラメトリック3D CADモデルを生成するために前処理されたLLMを強化するように設計されたフレームワークであるCad-Llamaを提示します。
具体的には、階層的なセマンティック説明を組み込んだパラメトリック3D CADコマンドシーケンスを構造化されたパラメトリックCADコード(SPCC)に変換するために、階層的な注釈パイプラインとコードのような形式を開発します。
さらに、SPCCを使用した適応前の前削除アプローチを提案し、その後、CAD固有のガイドラインに沿った命令チューニングプロセスを提案します。
この方法論は、LLMSにパラメトリックシーケンスに固有の空間知識を装備することを目的としています。
実験結果は、私たちのフレームワークが、以前の自己回帰方法と既存のLLMベースラインを大幅に上回ることを示しています。

要約(オリジナル)

Recently, Large Language Models (LLMs) have achieved significant success, prompting increased interest in expanding their generative capabilities beyond general text into domain-specific areas. This study investigates the generation of parametric sequences for computer-aided design (CAD) models using LLMs. This endeavor represents an initial step towards creating parametric 3D shapes with LLMs, as CAD model parameters directly correlate with shapes in three-dimensional space. Despite the formidable generative capacities of LLMs, this task remains challenging, as these models neither encounter parametric sequences during their pretraining phase nor possess direct awareness of 3D structures. To address this, we present CAD-Llama, a framework designed to enhance pretrained LLMs for generating parametric 3D CAD models. Specifically, we develop a hierarchical annotation pipeline and a code-like format to translate parametric 3D CAD command sequences into Structured Parametric CAD Code (SPCC), incorporating hierarchical semantic descriptions. Furthermore, we propose an adaptive pretraining approach utilizing SPCC, followed by an instruction tuning process aligned with CAD-specific guidelines. This methodology aims to equip LLMs with the spatial knowledge inherent in parametric sequences. Experimental results demonstrate that our framework significantly outperforms prior autoregressive methods and existing LLM baselines.

arxiv情報

著者 Jiahao Li,Weijian Ma,Xueyang Li,Yunzhong Lou,Guichun Zhou,Xiangdong Zhou
発行日 2025-06-10 13:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CAD-Llama: Leveraging Large Language Models for Computer-Aided Design Parametric 3D Model Generation はコメントを受け付けていません

HunyuanVideo-HOMA: Generic Human-Object Interaction in Multimodal Driven Human Animation

要約

人間とオブジェクトの相互作用(HOI)ビデオ生成の重要な制限に対処するために、具体的には、キュレーションされたモーションデータ、新しいオブジェクト/シナリオへの限定的な一般化、およびアクセシビリティの制限に依存します。
Hunyuanvideo-Homaは、制御性を向上させ、まばらで分離されたモーションガイダンスを介して、正確な入力への依存度を低下させます。
マルチモーダル拡散トランス(MMDIT)のデュアル入力空間への外観とモーションシグナルをエンコードし、それらを共有コンテキスト空間内で融合して、一時的に一貫した物理的にもっともらしい相互作用を合成します。
トレーニングを最適化するために、前提条件のMMDIT重みから初期化されたパラメーター空間HOIアダプターを統合し、効率的な適応を可能にしながら事前知識を維持し、解剖学的に正確なオーディオ駆動型の唇同期のための顔の横断的なアダプターを統合します。
広範な実験では、相互作用の自然性と弱い監督下での一般化における最先端のパフォーマンスを確認します。
最後に、Hunyuanvideo-Homaは、ユーザーフレンドリーなデモインターフェイスによってサポートされている、テキストコンディショナルの生成およびインタラクティブなオブジェクト操作における汎用性を示しています。
プロジェクトページはhttps://anonymous.4open.science/w/homa-page-0fbe/にあります。

要約(オリジナル)

To address key limitations in human-object interaction (HOI) video generation — specifically the reliance on curated motion data, limited generalization to novel objects/scenarios, and restricted accessibility — we introduce HunyuanVideo-HOMA, a weakly conditioned multimodal-driven framework. HunyuanVideo-HOMA enhances controllability and reduces dependency on precise inputs through sparse, decoupled motion guidance. It encodes appearance and motion signals into the dual input space of a multimodal diffusion transformer (MMDiT), fusing them within a shared context space to synthesize temporally consistent and physically plausible interactions. To optimize training, we integrate a parameter-space HOI adapter initialized from pretrained MMDiT weights, preserving prior knowledge while enabling efficient adaptation, and a facial cross-attention adapter for anatomically accurate audio-driven lip synchronization. Extensive experiments confirm state-of-the-art performance in interaction naturalness and generalization under weak supervision. Finally, HunyuanVideo-HOMA demonstrates versatility in text-conditioned generation and interactive object manipulation, supported by a user-friendly demo interface. The project page is at https://anonymous.4open.science/w/homa-page-0FBE/.

arxiv情報

著者 Ziyao Huang,Zixiang Zhou,Juan Cao,Yifeng Ma,Yi Chen,Zejing Rao,Zhiyong Xu,Hongmei Wang,Qin Lin,Yuan Zhou,Qinglin Lu,Fan Tang
発行日 2025-06-10 13:45:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HunyuanVideo-HOMA: Generic Human-Object Interaction in Multimodal Driven Human Animation はコメントを受け付けていません

ZigzagPointMamba: Spatial-Semantic Mamba for Point Cloud Understanding

要約

Pointmambaなどの状態空間モデル(SSM)は、線形の複雑さを伴うポイントクラウドの自己監視学習、計算効率のアウトパフォーマンスの変圧器の効率的な機能抽出を有効にします。
ただし、既存のポイントマンバベースの方法は、空間的連続性とローカルセマンティック相関を破壊する複雑なトークンの順序とランダムマスキングに依存しています。
これらの課題に取り組むためにZigzagpointmambaを提案します。
私たちのアプローチのコアは、グローバルにシーケンスクラウドトークンをポイントし、空間的に隣接するポイントトークンの近接性を維持することにより空間的連続性を高める単純なジグザグスキャンパスです。
それにもかかわらず、ランダムなマスキングは、自己教師の学習におけるローカルセマンティックモデリングを損ないます。
これに対処するために、セマンティックシャムマスキング戦略(SMS)を導入します。これは、オリジナルおよび類似のトークンのローカル機能を統合することにより、回復を促進するために意味的に似たトークンを覆います。
これは、孤立したローカル機能への依存を克服し、堅牢なグローバルセマンティックモデリングを可能にします。
事前に訓練されたジグザグポイントマンバの重量は、下流タスクを大幅に改善し、パーツセグメンテーションのためにシェーペネットパートで1.59%の利益を達成し、分類の場合はModelNet40で0.4%高い精度、0.19%、1.22%、およびPP-BTのSub-bgの分類に対してそれぞれ0.72%高い精度を達成します。
scanobjectnn。

要約(オリジナル)

State Space models (SSMs) such as PointMamba enable efficient feature extraction for point cloud self-supervised learning with linear complexity, outperforming Transformers in computational efficiency. However, existing PointMamba-based methods depend on complex token ordering and random masking, which disrupt spatial continuity and local semantic correlations. We propose ZigzagPointMamba to tackle these challenges. The core of our approach is a simple zigzag scan path that globally sequences point cloud tokens, enhancing spatial continuity by preserving the proximity of spatially adjacent point tokens. Nevertheless, random masking undermines local semantic modeling in self-supervised learning. To address this, we introduce a Semantic-Siamese Masking Strategy (SMS), which masks semantically similar tokens to facilitate reconstruction by integrating local features of original and similar tokens. This overcomes the dependence on isolated local features and enables robust global semantic modeling. Our pre-trained ZigzagPointMamba weights significantly improve downstream tasks, achieving a 1.59% mIoU gain on ShapeNetPart for part segmentation, a 0.4% higher accuracy on ModelNet40 for classification, and 0.19%, 1.22%, and 0.72% higher accuracies respectively for the classification tasks on the OBJ-BG, OBJ-ONLY, and PB-T50-RS subsets of ScanObjectNN.

arxiv情報

著者 Linshuang Diao,Dayong Ren,Sensen Song,Yurong Qian
発行日 2025-06-10 13:46:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ZigzagPointMamba: Spatial-Semantic Mamba for Point Cloud Understanding はコメントを受け付けていません