Accelerating Multiscale Modeling with Hybrid Solvers: Coupling FEM and Neural Operators with Domain Decomposition

要約

部分微分方程式(PDE)の数値ソルバーは、特にマルチスケールおよび動的システムで、計算コストと精度のバランスをとる課題に直面しています。
ニューラル演算子はシミュレーションを大幅に高速化できます。
しかし、彼らはしばしば、エラーの蓄積や多物理学の問題における限られた一般化などの課題に直面しています。
この作業では、物理学に基づいたディープネットとドメイン分解を介してFEMを統合する新しいハイブリッドフレームワークを紹介します。
コアイノベーションは、シュワルツの交互の方法を介して、FEMおよびディープネットのサブドメインを適応的に結合することにあります。
この方法論は、計算上厳しい領域を事前に訓練したディープオペレーターネットワークに戦略的に割り当て、残りの計算ドメインはFEMを通じて解決されます。
動的システムに対処するために、Newmark Time-StepingスキームをDeepOnetに直接統合し、長期シミュレーションにおけるエラーの蓄積を大幅に軽減します。
さらに、適応型サブドメインの進化により、ML分解領域は動的に拡大し、リメッシュなしで新たな微細な機能をキャプチャすることができます。
フレームワークの有効性は、静的、準静的、動的なレジームを含むさまざまな固体力学の問題で検証されており、収束速度が加速していることを示しています(Fe-FEアプローチと比較して最大20%の改善)。
私たちのケーススタディは、提案されているハイブリッドソルバーが次のことを示しています。(1)サブドメインインターフェイス全体でソリューションの連続性を維持し、(2)微細なメッシュ要件を排除することにより計算コストを削減し、(3)時間依存シミュレーションでの誤差蓄積を軽減し、(4)進化する物理フェノメナへの自動適応を可能にします。
この作業は、数値的手法とAI駆動型の代理との間のギャップを橋渡しし、エンジニアリングおよび科学的アプリケーションにおける高忠実度シミュレーションのためのスケーラブルな経路を提供します。

要約(オリジナル)

Numerical solvers for partial differential equations (PDEs) face challenges balancing computational cost and accuracy, especially in multiscale and dynamic systems. Neural operators can significantly speed up simulations; however, they often face challenges such as error accumulation and limited generalization in multiphysics problems. This work introduces a novel hybrid framework that integrates physics-informed DeepONet with FEM through domain decomposition. The core innovation lies in adaptively coupling FEM and DeepONet subdomains via a Schwarz alternating method. This methodology strategically allocates computationally demanding regions to a pre-trained Deep Operator Network, while the remaining computational domain is solved through FEM. To address dynamic systems, we integrate the Newmark time-stepping scheme directly into the DeepONet, significantly mitigating error accumulation in long-term simulations. Furthermore, an adaptive subdomain evolution enables the ML-resolved region to expand dynamically, capturing emerging fine-scale features without remeshing. The framework’s efficacy has been validated across a range of solid mechanics problems, including static, quasi-static, and dynamic regimes, demonstrating accelerated convergence rates (up to 20% improvement compared to FE-FE approaches), while preserving solution fidelity with error < 1%. Our case studies show that our proposed hybrid solver: (1) maintains solution continuity across subdomain interfaces, (2) reduces computational costs by eliminating fine mesh requirements, (3) mitigates error accumulation in time-dependent simulations, and (4) enables automatic adaptation to evolving physical phenomena. This work bridges the gap between numerical methods and AI-driven surrogates, offering a scalable pathway for high-fidelity simulations in engineering and scientific applications.

arxiv情報

著者 Wei Wang,Maryam Hakimzadeh,Haihui Ruan,Somdatta Goswami
発行日 2025-04-16 12:26:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Accelerating Multiscale Modeling with Hybrid Solvers: Coupling FEM and Neural Operators with Domain Decomposition はコメントを受け付けていません

Automated Python Translation

要約

Pythonは、業界と教育で最も一般的に使用されるプログラミング言語の1つです。
その英語のキーワードと組み込みの機能/モジュールにより、読みやすさと執筆の容易さの点で擬似コードに近づくことができます。
しかし、英語を話さない人はこれらの利点を経験しないかもしれません。
実際、その用語の英語の性質がオーバーヘッドの追加層を作成するため、Pythonコードを理解する能力が妨げられることさえあります。
そのため、Pythonの自然なモダリティ(キーワード、エラータイプ、識別子など)を他の人間の言語に自動的に変換するタスクを紹介します。
これは、これらの形式の省略された性質と、言語間の高度な数学/プログラミングの概念の潜在的な翻訳性を考慮して、ユニークな課題を提示します。
したがって、自動化されたパイプラインを作成して、Pythonを他の人間の言語に変換し、機械翻訳と大規模な言語モデルを使用して戦略を比較します。
次に、このパイプラインを使用して、7つの言語で5つの一般的なPythonライブラリ(Pytorch、Pandas、Tensorflow、Numpy、およびランダム)から翻訳を取得し、フランス語、ギリシャ語、ベンガル語でこれらの用語のサブセットで品質テストを行います。
これが、国籍や言語の背景に関係なく、誰でもアクセスできるユニバーサルパイソンの作成に向けてより明確な道を提供することを願っています。

要約(オリジナル)

Python is one of the most commonly used programming languages in industry and education. Its English keywords and built-in functions/modules allow it to come close to pseudo-code in terms of its readability and ease of writing. However, those who do not speak English may not experience these advantages. In fact, they may even be hindered in their ability to understand Python code, as the English nature of its terms creates an additional layer of overhead. To that end, we introduce the task of automatically translating Python’s natural modality (keywords, error types, identifiers, etc.) into other human languages. This presents a unique challenge, considering the abbreviated nature of these forms, as well as potential untranslatability of advanced mathematical/programming concepts across languages. We therefore create an automated pipeline to translate Python into other human languages, comparing strategies using machine translation and large language models. We then use this pipeline to acquire translations from five common Python libraries (pytorch, pandas, tensorflow, numpy, and random) in seven languages, and do a quality test on a subset of these terms in French, Greek, and Bengali. We hope this will provide a clearer path forward towards creating a universal Python, accessible to anyone regardless of nationality or language background.

arxiv情報

著者 Joshua Otten,Antonios Anastasopoulos,Kevin Moran
発行日 2025-04-16 13:49:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Automated Python Translation はコメントを受け付けていません

$π$-MPPI: A Projection-based Model Predictive Path Integral Scheme for Smooth Optimal Control of Fixed-Wing Aerial Vehicles

要約

モデル予測パス積分(MPPI)は、非線形システムの一般的なサンプリングベースのモデル予測制御(MPC)アルゴリズムです。
制御シーケンスをサンプリングして平均化することにより、軌跡を最適化します。
ただし、MPPIの重要な問題は、最適な制御シーケンスの非滑らかさであり、固定翼航空車両(FWV)などのシステムの振動につながります。
既存のソリューションは、コントロール誘導体をバインドできない事後平滑化を使用します。
このペーパーでは、新しいアプローチを紹介します。プロジェクションフィルター$ \ pi $を追加して、コントロールサンプルを最小限に抑え、制御の大きさと高次のデリバティブの境界を確保します。
フィルターされたサンプルはMPPIを使用して平均化され、$ \ pi $ -MPPIアプローチにつながります。
投影フィルターに神経加速カスタムオプティマイザーを使用することにより、計算オーバーヘッドを最小限に抑えます。
$ \ pi $ -mppiは、制御シーケンスで任意の滑らかさを実現する簡単な方法を提供します。
FWVに焦点を当てている間、この投影フィルターは任意のMPPIパイプラインに統合できます。
FWVSに適用される$ \ PI $ -MPPIは、ベースラインよりもチューニングが簡単で、よりスムーズでより堅牢なパフォーマンスをもたらします。

要約(オリジナル)

Model Predictive Path Integral (MPPI) is a popular sampling-based Model Predictive Control (MPC) algorithm for nonlinear systems. It optimizes trajectories by sampling control sequences and averaging them. However, a key issue with MPPI is the non-smoothness of the optimal control sequence, leading to oscillations in systems like fixed-wing aerial vehicles (FWVs). Existing solutions use post-hoc smoothing, which fails to bound control derivatives. This paper introduces a new approach: we add a projection filter $\pi$ to minimally correct control samples, ensuring bounds on control magnitude and higher-order derivatives. The filtered samples are then averaged using MPPI, leading to our $\pi$-MPPI approach. We minimize computational overhead by using a neural accelerated custom optimizer for the projection filter. $\pi$-MPPI offers a simple way to achieve arbitrary smoothness in control sequences. While we focus on FWVs, this projection filter can be integrated into any MPPI pipeline. Applied to FWVs, $\pi$-MPPI is easier to tune than the baseline, resulting in smoother, more robust performance.

arxiv情報

著者 Edvin Martin Andrejev,Amith Manoharan,Karl-Eerik Unt,Arun Kumar Singh
発行日 2025-04-16 08:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | $π$-MPPI: A Projection-based Model Predictive Path Integral Scheme for Smooth Optimal Control of Fixed-Wing Aerial Vehicles はコメントを受け付けていません

A Real-time Anomaly Detection Method for Robots based on a Flexible and Sparse Latent Space

要約

多様な環境でロボットが効果的に動作するための需要の高まりは、ロボット操作中にロボットリアルタイムの異常検出技術の必要性を必要とします。
ただし、ロボット工学の深い学習ベースのモデルは、トレーニングデータが限られているため、非常に騒々しい信号機能により、重大な課題に直面しています。
このホワイトペーパーでは、これらの問題に対処するために、まばらなマスクされた自己回帰フローベースの敵対的自動エンコーダーモデルを提示します。
このアプローチは、マスクされたオートレーリングフローモデルを敵対的な自動エンコーダーに統合して、柔軟な潜在スペースを構築し、まばらな自動エンコーダーを利用して、限られた機能空間を持つシナリオであっても、重要な機能に効率的に焦点を合わせます。
私たちの実験は、提案されたモデルが、既存の最先端の方法と比較して、ランダムに配置された缶を使用したピックアンドプレイスロボット操作のレシーバー動作特性曲線の下で4.96%から9.75%高い面積を達成することを示しています。
特に、軽量オブジェクトとの衝突を含むシナリオでは、最大19.67%のパフォーマンスが見られました。
さらに、既存の最先端モデルとは異なり、モデルは1ミリ秒以内に推論を実行し、リアルタイムの異常検出を確保します。
これらの機能により、モデルは動的環境で機械学習ベースのロボット安全システムに非常に適用できます。
コードは、受け入れ後に公開されます。

要約(オリジナル)

The growing demand for robots to operate effectively in diverse environments necessitates the need for robust real-time anomaly detection techniques during robotic operations. However, deep learning-based models in robotics face significant challenges due to limited training data and highly noisy signal features. In this paper, we present Sparse Masked Autoregressive Flow-based Adversarial AutoEncoders model to address these problems. This approach integrates Masked Autoregressive Flow model into Adversarial AutoEncoders to construct a flexible latent space and utilize Sparse autoencoder to efficiently focus on important features, even in scenarios with limited feature space. Our experiments demonstrate that the proposed model achieves a 4.96% to 9.75% higher area under the receiver operating characteristic curve for pick-and-place robotic operations with randomly placed cans, compared to existing state-of-the-art methods. Notably, it showed up to 19.67% better performance in scenarios involving collisions with lightweight objects. Additionally, unlike the existing state-of-the-art model, our model performs inferences within 1 millisecond, ensuring real-time anomaly detection. These capabilities make our model highly applicable to machine learning-based robotic safety systems in dynamic environments. The code will be made publicly available after acceptance.

arxiv情報

著者 Taewook Kang,Bum-Jae You,Juyoun Park,Yisoo Lee
発行日 2025-04-16 08:50:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | A Real-time Anomaly Detection Method for Robots based on a Flexible and Sparse Latent Space はコメントを受け付けていません

AI threats to national security can be countered through an incident regime

要約

AI能力の最近の進歩は、AIシステムが国家安全保障に脅威を与える可能性があるという懸念を高めました。たとえば、悪意のあるアクターが重要な国家インフラストラクチャでサイバー攻撃を実行したり、自律AIシステムの制御を紛失したりすることを容易にすることにより。
並行して、米国の連邦議員は、同様の脅威を特定して対抗するために、初期の「AI事件体制」を提案しています。
この論文では、これら2つの傾向を統合し、AIシステムからの潜在的な国家安全保障の脅威に対抗することを目的とした法的に義務付けられた展開後のAI事件制度のタイムリーな提案を提示します。
「セキュリティクリティカル」の概念を導入して、「セキュリティクリティカル」が民間の原子力発電、航空、航空科学の二重使用懸念研究、フロンティアAI開発について説明する前に、国家安全保障に極度のリスクをもたらすセクターを説明する「セキュリティ批判」の概念を導入することから始めます。
次に、AIインシデント制度の提案を詳細に提示し、他の「セキュリティクリティカルな」セクターにおける米国の国内事件体制との類似性を実証することにより、提案の各要素を正当化します。
最後に、提案されたAI事件制度がAIサイバー事件を扱う仮説的なシナリオをスケッチします。
提案されているAIインシデント体制は、3つのフェーズに分割されています。
最初のフェーズは、「AIインシデント」としてカウントされるものの新しい運用化を中心に展開します。AIプロバイダーは、フロンティアAIシステムを展開する前に「国家安全保障ケース」を作成する必要があることをお勧めします。
第2段階と第3フェーズでは、AIプロバイダーが事件について政府機関に通知する必要があり、政府機関が国家安全保障に対する将来の脅威に対抗するために、AIプロバイダーのセキュリティと安全手順の修正に関与すべきであることを明らかにしています。

要約(オリジナル)

Recent progress in AI capabilities has heightened concerns that AI systems could pose a threat to national security, for example, by making it easier for malicious actors to perform cyberattacks on critical national infrastructure, or through loss of control of autonomous AI systems. In parallel, federal legislators in the US have proposed nascent ‘AI incident regimes’ to identify and counter similar threats. In this paper, we consolidate these two trends and present a timely proposal for a legally mandated post-deployment AI incident regime that aims to counter potential national security threats from AI systems. We start the paper by introducing the concept of ‘security-critical’ to describe sectors that pose extreme risks to national security, before arguing that ‘security-critical’ describes civilian nuclear power, aviation, life science dual-use research of concern, and frontier AI development. We then present in detail our AI incident regime proposal, justifying each component of the proposal by demonstrating its similarity to US domestic incident regimes in other ‘security-critical’ sectors. Finally, we sketch a hypothetical scenario where our proposed AI incident regime deals with an AI cyber incident. Our proposed AI incident regime is split into three phases. The first phase revolves around a novel operationalization of what counts as an ‘AI incident’ and we suggest that AI providers must create a ‘national security case’ before deploying a frontier AI system. The second and third phases spell out that AI providers should notify a government agency about incidents, and that the government agency should be involved in amending AI providers’ security and safety procedures, in order to counter future threats to national security.

arxiv情報

著者 Alejandro Ortega
発行日 2025-04-16 09:24:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | AI threats to national security can be countered through an incident regime はコメントを受け付けていません

Elucidating the Design Space of Multimodal Protein Language Models

要約

マルチモーダルタンパク質言語モデル(PLMS)は、シーケンスとトークンベースの構造情報を統合し、タンパク質モデリング、生成、および設計の強力な基盤として機能します。
ただし、3D構造を離散トークンに象徴することに依存すると、細粒の構造の詳細と相関に関する忠実度が大幅に失われます。
この論文では、マルチモーダルPLMSの設計スペースを体系的に解明して、制限を克服します。
トークン化の損失を特定し、PLMSによる主要なボトルネックとしての不正確な構造トークン予測を特定します。
これらに対処するために、提案された設計スペースは、生成モデリングの改善、構造認識アーキテクチャ、および表現学習、およびデータ調査をカバーしています。
私たちの進歩は、細かい粒度の監督に近づき、トークンベースのマルチモーダルPLMが堅牢な構造モデリングを実現できることを示しています。
効果的な設計方法は、PDBテストセットでRMSDを5.52から2.36に減らし、3Bベースラインを上回り、特殊な折りたたみモデルと同等に削減することにより、構造生成の多様性、特に650mモデルの折りたたみ能力を劇的に改善します。

要約(オリジナル)

Multimodal protein language models (PLMs) integrate sequence and token-based structural information, serving as a powerful foundation for protein modeling, generation, and design. However, the reliance on tokenizing 3D structures into discrete tokens causes substantial loss of fidelity about fine-grained structural details and correlations. In this paper, we systematically elucidate the design space of multimodal PLMs to overcome their limitations. We identify tokenization loss and inaccurate structure token predictions by the PLMs as major bottlenecks. To address these, our proposed design space covers improved generative modeling, structure-aware architectures and representation learning, and data exploration. Our advancements approach finer-grained supervision, demonstrating that token-based multimodal PLMs can achieve robust structural modeling. The effective design methods dramatically improve the structure generation diversity, and notably, folding abilities of our 650M model by reducing the RMSD from 5.52 to 2.36 on PDB testset, even outperforming 3B baselines and on par with the specialized folding models.

arxiv情報

著者 Cheng-Yen Hsieh,Xinyou Wang,Daiheng Zhang,Dongyu Xue,Fei Ye,Shujian Huang,Zaixiang Zheng,Quanquan Gu
発行日 2025-04-16 02:35:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM | Elucidating the Design Space of Multimodal Protein Language Models はコメントを受け付けていません

UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis

要約

大規模なビジョン言語モデルの最近の進歩は、デジタルデバイスの生産性を高めるために人間のような視覚認識能力を利用するグラフィカルユーザーインターフェイス(GUI)エージェントの開発を加速しています。
プラットフォームに依存し、実装のバリエーションに対して脆弱なGUIメタデータに基づいたアプローチと比較して、ビジョンベースのアプローチはより広範な適用性を提供します。
このビジョンベースのパラダイムでは、特に限られたパブリックトレーニングデータセットとリソース集約型のマニュアル命令データアノテーションにより、特定のスクリーンショットの対応する要素の位置にユーザー命令をマッピングするGUI命令の接地は、依然として重要な課題です。
この論文では、このタスクでは、要素とスクリーンの比率、不均衡な要素タイプ、暗黙の命令など、このタスクで未開拓の課題を掘り下げます。
これらの課題に対処するために、ヒトのアノテーターの代わりにGPT-4oを使用してさまざまな複雑な命令データセットを生成するために、大規模なデータ合成パイプラインUI-E2i-Synthを導入します。
さらに、多様な注釈の側面を組み込むことにより、既存のベンチマークの制限に対処するように設計された新しいGUI命令の接地ベンチマークUI-I2Eベンチを提案します。
合成されたデータで訓練されたモデルは、GUI命令の接地で優れたパフォーマンスを実現し、提案されたデータ合成パイプラインの進歩を示しています。
提案されたベンチマークは、広範な分析を伴い、GUIの接地における将来の研究のための実用的な洞察を提供します。
https://colmon46.github.io/i2e-bench-leaderboard/で対応するアーティファクトをリリースします。

要約(オリジナル)

Recent advancements in Large Vision-Language Models are accelerating the development of Graphical User Interface (GUI) agents that utilize human-like vision perception capabilities to enhance productivity on digital devices. Compared to approaches predicated on GUI metadata, which are platform-dependent and vulnerable to implementation variations, vision-based approaches offer broader applicability. In this vision-based paradigm, the GUI instruction grounding, which maps user instruction to the location of corresponding element on the given screenshot, remains a critical challenge, particularly due to limited public training dataset and resource-intensive manual instruction data annotation. In this paper, we delve into unexplored challenges in this task including element-to-screen ratio, unbalanced element type, and implicit instruction. To address these challenges, we introduce a large-scale data synthesis pipeline UI-E2I-Synth for generating varying complex instruction datasets using GPT-4o instead of human annotators. Furthermore, we propose a new GUI instruction grounding benchmark UI-I2E-Bench, which is designed to address the limitations of existing benchmarks by incorporating diverse annotation aspects. Our model, trained on the synthesized data, achieves superior performance in GUI instruction grounding, demonstrating the advancements of proposed data synthesis pipeline. The proposed benchmark, accompanied by extensive analyses, provides practical insights for future research in GUI grounding. We will release corresponding artifacts at https://colmon46.github.io/i2e-bench-leaderboard/ .

arxiv情報

著者 Xinyi Liu,Xiaoyi Zhang,Ziyun Zhang,Yan Lu
発行日 2025-04-16 02:29:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.HC | UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis はコメントを受け付けていません

DeepWheel: Generating a 3D Synthetic Wheel Dataset for Design and Performance Evaluation

要約

データ駆動型の設計は、エンジニアリングの革新を加速するための強力な戦略として浮上しています。
ただし、3Dジオメトリと物理的パフォーマンスメトリックを含む大規模で高品質のデータセットがないため、車両ホイールの設計への適用は限られています。
このギャップに対処するために、この研究では、生成AIを使用した合成設計パフォーマンスデータセット生成フレームワークを提案しています。
提案されたフレームワークは、最初に安定した拡散を使用して2Dレンダリングされた画像を生成し、次に2.5D深度推定を通じて3Dジオメトリを再構築します。
その後、エンジニアリングパフォーマンスデータを抽出するために構造シミュレーションが実行されます。
設計とパフォーマンスのスペースをさらに拡大するために、トポロジの最適化が適用され、より多様なホイールデザインの生成が可能になります。
Deepheelという名前の最終データセットは、6,000を超える写真リアリスティックな画像と、構造的に分析された3Dモデルで構成されています。
このマルチモーダルデータセットは、サロゲートモデルトレーニング、データ駆動型の逆設計、設計スペース探索のための貴重なリソースとして機能します。
提案された方法論は、他の複雑な設計ドメインにも適用できます。
データセットはCreative Commons Attribution-NonCommercial 4.0 International(CC BY-NC 4.0)の下でリリースされ、https://www.smartdesignlab.org/datasetsで入手できます。

要約(オリジナル)

Data-driven design is emerging as a powerful strategy to accelerate engineering innovation. However, its application to vehicle wheel design remains limited due to the lack of large-scale, high-quality datasets that include 3D geometry and physical performance metrics. To address this gap, this study proposes a synthetic design-performance dataset generation framework using generative AI. The proposed framework first generates 2D rendered images using Stable Diffusion, and then reconstructs the 3D geometry through 2.5D depth estimation. Structural simulations are subsequently performed to extract engineering performance data. To further expand the design and performance space, topology optimization is applied, enabling the generation of a more diverse set of wheel designs. The final dataset, named DeepWheel, consists of over 6,000 photo-realistic images and 900 structurally analyzed 3D models. This multi-modal dataset serves as a valuable resource for surrogate model training, data-driven inverse design, and design space exploration. The proposed methodology is also applicable to other complex design domains. The dataset is released under the Creative Commons Attribution-NonCommercial 4.0 International(CC BY-NC 4.0) and is available on the https://www.smartdesignlab.org/datasets

arxiv情報

著者 Soyoung Yoo,Namwoo Kang
発行日 2025-04-16 04:26:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.CV, physics.app-ph | DeepWheel: Generating a 3D Synthetic Wheel Dataset for Design and Performance Evaluation はコメントを受け付けていません

Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion

要約

3D LIDARシーンの完了における拡散モデルの適用は、拡散のサンプリング速度が遅いため、制限されています。
スコア蒸留は拡散サンプリングを加速しますが、パフォーマンスの低下とともに、直接ポリシー最適化(DPO)を使用したトレーニング後は、優先データを使用してパフォーマンスを高めます。
このペーパーでは、蒸留-DPOを提案します。これは、好みの整理を伴うLIDARシーンの完成のための新しい拡散蒸留フレームワークです。
まず、学生モデルは、異なる初期ノイズでペアの完了シーンを生成します。
第二に、Lidarシーンの評価メトリックを好みとして使用して、獲得とサンプルのペアを失います。
ほとんどのLIDARシーンメトリックは有益ですが、直接最適化されるためには有益ではないが、決定不可能であるため、このような構造は合理的です。
第三に、蒸留-DPOは、ペアの完了シーンで教師モデルと学生モデルの間のスコア関数の違いを活用することにより、学生モデルを最適化します。
このような手順は、収束するまで繰り返されます。
広範な実験では、最先端のLIDARシーンの完了拡散モデルと比較して、蒸留-DPOが高品質のシーンの完成を達成しながら、完了速度を5倍以上加速することが示されています。
私たちの方法は、私たちの知識を最大限に活用して蒸留において好みの学習を採用することを探求し、好みに合った蒸留に関する洞察を提供する最初の方法です。
私たちのコードは、https://github.com/happyw1nd/distillationdpoで公開されています。

要約(オリジナル)

The application of diffusion models in 3D LiDAR scene completion is limited due to diffusion’s slow sampling speed. Score distillation accelerates diffusion sampling but with performance degradation, while post-training with direct policy optimization (DPO) boosts performance using preference data. This paper proposes Distillation-DPO, a novel diffusion distillation framework for LiDAR scene completion with preference aligment. First, the student model generates paired completion scenes with different initial noises. Second, using LiDAR scene evaluation metrics as preference, we construct winning and losing sample pairs. Such construction is reasonable, since most LiDAR scene metrics are informative but non-differentiable to be optimized directly. Third, Distillation-DPO optimizes the student model by exploiting the difference in score functions between the teacher and student models on the paired completion scenes. Such procedure is repeated until convergence. Extensive experiments demonstrate that, compared to state-of-the-art LiDAR scene completion diffusion models, Distillation-DPO achieves higher-quality scene completion while accelerating the completion speed by more than 5-fold. Our method is the first to explore adopting preference learning in distillation to the best of our knowledge and provide insights into preference-aligned distillation. Our code is public available on https://github.com/happyw1nd/DistillationDPO.

arxiv情報

著者 An Zhao,Shengyuan Zhang,Ling Yang,Zejian Li,Jiale Wu,Haoran Xu,AnYang Wei,Perry Pengyun GU,Lingyun Sun
発行日 2025-04-16 02:02:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion はコメントを受け付けていません

HyRRT-Connect: Bidirectional Motion Planning for Hybrid Dynamical Systems

要約

このペーパーでは、ハイブリッドシステムのモーション計画問題を解決するために、双方向ランダムツリー(RRT)アルゴリズムを提案します。
Hyrrt-Connectと呼ばれる提案されたアルゴリズムは、前方と後方の伝播結果の重複が検出されるまで、ハイブリッド時間に前方方向と後方方向の両方で伝播します。
次に、Hyrrt-Connectは、ハイブリッドタイムドメインで定義された関数の反転と連結を通じてモーションプランを構築し、モーションプランが与えられたハイブリッドダイナミクスを満たすことを保証します。
前方と後方の部分運動計画の間の距離を許容することによって引き起こされる流れに沿った潜在的な不連続性に対処するために、順方向部分運動計画の最終状態からのハイブリッド時間シミュレーションによる後方部分のモーションプランを再構築します。
不連続性を効果的に排除します。
提案されたアルゴリズムは、作動化されたバウンスボールシステムとウォーキングロボットの例に適用され、その計算改善を強調します。

要約(オリジナル)

This paper proposes a bidirectional rapidly-exploring random trees (RRT) algorithm to solve the motion planning problem for hybrid systems. The proposed algorithm, called HyRRT-Connect, propagates in both forward and backward directions in hybrid time until an overlap between the forward and backward propagation results is detected. Then, HyRRT-Connect constructs a motion plan through the reversal and concatenation of functions defined on hybrid time domains, ensuring that the motion plan satisfies the given hybrid dynamics. To address the potential discontinuity along the flow caused by tolerating some distance between the forward and backward partial motion plans, we reconstruct the backward partial motion plan by a forward-in-hybrid-time simulation from the final state of the forward partial motion plan. effectively eliminating the discontinuity. The proposed algorithm is applied to an actuated bouncing ball system and a walking robot example to highlight its computational improvement.

arxiv情報

著者 Nan Wang,Ricardo G. Sanfelice
発行日 2025-04-14 20:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | HyRRT-Connect: Bidirectional Motion Planning for Hybrid Dynamical Systems はコメントを受け付けていません