SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment

要約

大規模な言語モデル(LLM)を自律運転に統合することは、一般化と説明可能性を改善することを期待して、大きな注目を集めています。
ただし、既存の方法では、運転または視覚言語の理解のいずれかに焦点を当てていることがよくありますが、高い運転性能と広範な言語理解の両方を達成することは依然として困難です。
さらに、ビジョン言語の理解に取り組むための支配的なアプローチは、視覚的な質問応答を使用することです。
ただし、自律運転の場合、これはアクション空間と一致する場合にのみ便利です。
それ以外の場合、モデルの回答はその動作と矛盾する可能性があります。
したがって、3つの異なるタスクを処理できるモデルを提案します:(1)閉ループ運転、(2)視覚言語の理解、および(3)言語アクションアライメント。
私たちのモデルSimlingoは、Vision言語モデル(VLM)に基づいており、Lidarのような高価なセンサーを除くカメラのみを使用して動作します。
Simlingoは、Bench2Driveベンチマークで広く使用されているCarlaシミュレーターで最先端のパフォーマンスを取得し、Carla Challenge 2024での優勝エントリです。さらに、高運転性のパフォーマンスを維持しながら、さまざまな言語関連のタスクで強力な結果を得ています。

要約(オリジナル)

Integrating large language models (LLMs) into autonomous driving has attracted significant attention with the hope of improving generalization and explainability. However, existing methods often focus on either driving or vision-language understanding but achieving both high driving performance and extensive language understanding remains challenging. In addition, the dominant approach to tackle vision-language understanding is using visual question answering. However, for autonomous driving, this is only useful if it is aligned with the action space. Otherwise, the model’s answers could be inconsistent with its behavior. Therefore, we propose a model that can handle three different tasks: (1) closed-loop driving, (2) vision-language understanding, and (3) language-action alignment. Our model SimLingo is based on a vision language model (VLM) and works using only camera, excluding expensive sensors like LiDAR. SimLingo obtains state-of-the-art performance on the widely used CARLA simulator on the Bench2Drive benchmark and is the winning entry at the CARLA challenge 2024. Additionally, we achieve strong results in a wide variety of language-related tasks while maintaining high driving performance.

arxiv情報

著者 Katrin Renz,Long Chen,Elahe Arani,Oleg Sinavski
発行日 2025-03-12 17:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment はコメントを受け付けていません

PISA Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop

要約

大規模な事前訓練を受けたビデオ生成モデルは、コンテンツの作成に優れていますが、身体的に正確な世界のシミュレータとして信頼できません。
この作業は、オブジェクトの自由落下をモデリングするという単純で基本的な物理学のタスクのレンズを介した正確な世界モデリングのためのこれらのモデル後のトレーニングのプロセスを研究します。
視覚的に印象的な出力にもかかわらず、最先端のビデオ生成モデルがこの基本的なタスクに苦しんでいることを示しています。
この問題を改善するために、比較的少量のシミュレートされたビデオで微調整することは、モデルのドロップ動作を誘導するのに効果的であり、紹介する新しい報酬モデリング手順を通じて結果をさらに改善できることがわかります。
また、私たちの研究は、一般化と流通モデリングにおけるトレーニング後の重要な制限を明らかにしています。
さらに、このタスクのベンチマークをリリースし、大規模なビデオ生成モデル開発において物理的精度を追跡するための有用な診断ツールとして機能する可能性があります。

要約(オリジナル)

Large-scale pre-trained video generation models excel in content creation but are not reliable as physically accurate world simulators out of the box. This work studies the process of post-training these models for accurate world modeling through the lens of the simple, yet fundamental, physics task of modeling object freefall. We show state-of-the-art video generation models struggle with this basic task, despite their visually impressive outputs. To remedy this problem, we find that fine-tuning on a relatively small amount of simulated videos is effective in inducing the dropping behavior in the model, and we can further improve results through a novel reward modeling procedure we introduce. Our study also reveals key limitations of post-training in generalization and distribution modeling. Additionally, we release a benchmark for this task that may serve as a useful diagnostic tool for tracking physical accuracy in large-scale video generative model development.

arxiv情報

著者 Chenyu Li,Oscar Michel,Xichen Pan,Sainan Liu,Mike Roberts,Saining Xie
発行日 2025-03-12 17:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PISA Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop はコメントを受け付けていません

RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling

要約

スコア蒸留サンプリング(SDS)は、テキストから3Dの世代などのタスクに2D拡散前のプレアを活用するための効果的な手法として浮上しています。
強力ですが、SDSはユーザーの意図に微調整されたアライメントを達成することに苦労しています。
これを克服するために、報酬モデルからのアライメントスコアに基づいてノイズサンプルを重み付けし、加重SDS損失を生成する新しいアプローチであるRewardsdsを導入します。
この損失は、高報酬の出力を整列させるノイズサンプルからの勾配を優先します。
私たちのアプローチは広く適用可能であり、SDSベースの方法を拡張できます。
特に、rewardVSDを導入することにより、変分スコア蒸留(VSD)への適用性を示します。
テキストからイメージ、2D編集、およびテキストから3Dの世代タスクに関する報酬とrewardVSDを評価します。SDSおよびVSDの大幅な改善は、生成品質と希望の報酬モデルを測定する多様なメトリックのセットを示し、最先端のパフォーマンスを可能にします。
プロジェクトページはhttps:// itaychachyで入手できます。
github.io/reward-sds/。

要約(オリジナル)

Score Distillation Sampling (SDS) has emerged as an effective technique for leveraging 2D diffusion priors for tasks such as text-to-3D generation. While powerful, SDS struggles with achieving fine-grained alignment to user intent. To overcome this, we introduce RewardSDS, a novel approach that weights noise samples based on alignment scores from a reward model, producing a weighted SDS loss. This loss prioritizes gradients from noise samples that yield aligned high-reward output. Our approach is broadly applicable and can extend SDS-based methods. In particular, we demonstrate its applicability to Variational Score Distillation (VSD) by introducing RewardVSD. We evaluate RewardSDS and RewardVSD on text-to-image, 2D editing, and text-to-3D generation tasks, showing significant improvements over SDS and VSD on a diverse set of metrics measuring generation quality and alignment to desired reward models, enabling state-of-the-art performance. Project page is available at https://itaychachy. github.io/reward-sds/.

arxiv情報

著者 Itay Chachy,Guy Yariv,Sagie Benaim
発行日 2025-03-12 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling はコメントを受け付けていません

MastermindEval: A Simple But Scalable Reasoning Benchmark

要約

大規模な言語モデル(LLM)の最近の進歩により、幅広い言語の理解と数学的タスクにわたって顕著なパフォーマンスが発生しました。
その結果、LLMSの真の推論能力の評価に注意が高まっています。
ただし、OpenaiのO1やDeepseekのR1などの推論に焦点を当てたモデルの急速な進歩により、進行中のモデル開発に対応できる推論ベンチマークに対する需要が高まっています。
この論文では、ボードゲームの首謀者に触発されたシンプルでスケーラブルで解釈可能な演ductiveな推論ベンチマークであるMasterMindevalを紹介します。
私たちのベンチマークは、モデルが自律的にゲームを再生するエージェント評価、および(2)推測する可能性のある有効なコードのみを備えた事前にプレイされたゲーム状態を与えられる演ductive的な推論評価の2つの評価パラダイムをサポートしています。
実験結果では、(1)簡単な首謀者インスタンスでさえ現在のモデルにとって困難であることを発見し、(2)ベンチマークが将来的により高度なモデルにとってスケーラブルであることを示しています。さらに、モデルが最終的なソリューションを推定できない理由を調査し、現在のモデルが情報を組み合わせる声明の数として隠されたコードを推定する際に現在のモデルが制限されていることを発見します。

要約(オリジナル)

Recent advancements in large language models (LLMs) have led to remarkable performance across a wide range of language understanding and mathematical tasks. As a result, increasing attention has been given to assessing the true reasoning capabilities of LLMs, driving research into commonsense, numerical, logical, and qualitative reasoning. However, with the rapid progress of reasoning-focused models such as OpenAI’s o1 and DeepSeek’s R1, there has been a growing demand for reasoning benchmarks that can keep pace with ongoing model developments. In this paper, we introduce MastermindEval, a simple, scalable, and interpretable deductive reasoning benchmark inspired by the board game Mastermind. Our benchmark supports two evaluation paradigms: (1) agentic evaluation, in which the model autonomously plays the game, and (2) deductive reasoning evaluation, in which the model is given a pre-played game state with only one possible valid code to infer. In our experimental results we (1) find that even easy Mastermind instances are difficult for current models and (2) demonstrate that the benchmark is scalable to possibly more advanced models in the future Furthermore, we investigate possible reasons why models cannot deduce the final solution and find that current models are limited in deducing the concealed code as the number of statement to combine information from is increasing.

arxiv情報

著者 Jonas Golde,Patrick Haller,Fabio Barth,Alan Akbik
発行日 2025-03-12 15:02:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MastermindEval: A Simple But Scalable Reasoning Benchmark はコメントを受け付けていません

OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting

要約

拡散ベースの生成モデルは、オブジェクト指向の画像編集に革命をもたらしましたが、現実的なオブジェクトの除去と挿入への展開は、物理的効果の複雑な相互作用やペアのトレーニングデータが不十分ななどの課題によって妨げられたままです。
この作業では、孤立したタスクではなく相互依存プロセスとしてオブジェクトの削除と挿入を再概念化する統一されたフレームワークであるOmnipaintを紹介します。
事前に訓練された拡散を活用して、初期のペアのサンプル最適化とその後のサイクルフローを介した大規模な大規模な洗練された精製を含むプログレッシブトレーニングパイプラインとともに、正確な前景エリミネーションとシームレスなオブジェクトの挿入を実現しながら、シーンのジオメトリとイントリン特性を忠実に保存します。
さらに、私たちの新しいCFDメトリックは、コンテキストの一貫性とオブジェクトの幻覚の堅牢で参照フリーの評価を提供し、高忠実度の画像編集のための新しいベンチマークを確立します。
プロジェクトページ:https://yeates.github.io/omnipaint-page/

要約(オリジナル)

Diffusion-based generative models have revolutionized object-oriented image editing, yet their deployment in realistic object removal and insertion remains hampered by challenges such as the intricate interplay of physical effects and insufficient paired training data. In this work, we introduce OmniPaint, a unified framework that re-conceptualizes object removal and insertion as interdependent processes rather than isolated tasks. Leveraging a pre-trained diffusion prior along with a progressive training pipeline comprising initial paired sample optimization and subsequent large-scale unpaired refinement via CycleFlow, OmniPaint achieves precise foreground elimination and seamless object insertion while faithfully preserving scene geometry and intrinsic properties. Furthermore, our novel CFD metric offers a robust, reference-free evaluation of context consistency and object hallucination, establishing a new benchmark for high-fidelity image editing. Project page: https://yeates.github.io/OmniPaint-Page/

arxiv情報

著者 Yongsheng Yu,Ziyun Zeng,Haitian Zheng,Jiebo Luo
発行日 2025-03-12 17:05:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting はコメントを受け付けていません

Detect, Investigate, Judge and Determine: A Knowledge-guided Framework for Few-shot Fake News Detection

要約

いくつかのショットの偽のニュース検出(FS-FND)は、非常に低いリソースのシナリオで、不正確なニュースと実際のニュースを区別することを目指しています。
このタスクは、ソーシャルメディアに対する偽のニュースの広範な普及と有害な影響により、注目を集めています。
大規模な言語モデル(LLMS)は、豊富な事前知識と優れたコンテキスト学習能力の助けを借りて、競争力のあるパフォーマンスを実証しています。
ただし、既存の方法は、LLMの可能性を大幅に損なう曖昧さや情報不足など、大きな制限に直面しています。
これらの欠点に対処するために、内外の視点からLLMを強化するように設計された、二重の知識誘導偽のニュース検出(DKFND)モデルを提案します。
具体的には、DKFNDは、最初に検出モジュールを介して各ニュース記事の知識概念を識別します。
その後、DKFNDは調査モジュールを創造的に設計して、現在のニュースに関する貴重な情報の内外を取得し、次に別の裁判官モジュールが関連性と信頼を評価します。
最後に、決定モジュールは2つのそれぞれの予測をさらに導き出し、最終結果を取得します。
2つのパブリックデータセットでの広範な実験は、特にリソースの低い設定で、提案された方法の有効性を示しています。

要約(オリジナル)

Few-Shot Fake News Detection (FS-FND) aims to distinguish inaccurate news from real ones in extremely low-resource scenarios. This task has garnered increased attention due to the widespread dissemination and harmful impact of fake news on social media. Large Language Models (LLMs) have demonstrated competitive performance with the help of their rich prior knowledge and excellent in-context learning abilities. However, existing methods face significant limitations, such as the Understanding Ambiguity and Information Scarcity, which significantly undermine the potential of LLMs. To address these shortcomings, we propose a Dual-perspective Knowledge-guided Fake News Detection (DKFND) model, designed to enhance LLMs from both inside and outside perspectives. Specifically, DKFND first identifies the knowledge concepts of each news article through a Detection Module. Subsequently, DKFND creatively designs an Investigation Module to retrieve inside and outside valuable information concerning to the current news, followed by another Judge Module to evaluate the relevance and confidence of them. Finally, a Determination Module further derives two respective predictions and obtain the final result. Extensive experiments on two public datasets show the efficacy of our proposed method, particularly in low-resource settings.

arxiv情報

著者 Ye Liu,Jiajun Zhu,Xukai Liu,Haoyu Tang,Yanghai Zhang,Kai Zhang,Xiaofang Zhou,Enhong Chen
発行日 2025-03-12 04:46:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Detect, Investigate, Judge and Determine: A Knowledge-guided Framework for Few-shot Fake News Detection はコメントを受け付けていません

Stick to Facts: Towards Fidelity-oriented Product Description Generation

要約

他のテキスト生成タスクとは異なり、製品の説明生成において、製品属性情報に固執する忠実な説明を生成することが非常に重要です。
しかし、この問題にはほとんど注意が払われていません。
このギャップを埋めるために、Fidelity指向の製品説明ジェネレーター(FPDG)という名前のモデルを提案します。
製品属性情報は常にエンティティワードによって伝えられるため、FPDGは各単語のエンティティラベルを考慮に入れます。
具体的には、最初に、エンティティラベル誘導の長期メモリ(ELSTM)セルに基づいた再発性ニューラルネットワーク(RNN)デコーダーを提案し、各単語の埋め込みラベルとエンティティラベルの両方を入力として使用します。
第二に、エンティティラベルをキーとキーワードとして値として保存するキーワードメモリを確立し、FPDGがエンティティラベルに参加することでキーワードに参加できるようにします。
大規模な現実世界の製品説明データセットで行われた実験は、モデルが従来の生成指標と人間の評価の両方の観点から最先端のパフォーマンスを達成することを示しています。
具体的には、FPDGは生成された説明の忠実度を25%増加させます。

要約(オリジナル)

Different from other text generation tasks, in product description generation, it is of vital importance to generate faithful descriptions that stick to the product attribute information. However, little attention has been paid to this problem. To bridge this gap, we propose a model named Fidelity-oriented Product Description Generator (FPDG). FPDG takes the entity label of each word into account, since the product attribute information is always conveyed by entity words. Specifically, we first propose a Recurrent Neural Network (RNN) decoder based on the Entity-label-guided Long Short-Term Memory (ELSTM) cell, taking both the embedding and the entity label of each word as input. Second, we establish a keyword memory that stores the entity labels as keys and keywords as values, allowing FPDG to attend to keywords by attending to their entity labels. Experiments conducted on a large-scale real-world product description dataset show that our model achieves state-of-the-art performance in terms of both traditional generation metrics and human evaluations. Specifically, FPDG increases the fidelity of the generated descriptions by 25%.

arxiv情報

著者 Zhangming Chan,Xiuying Chen,Yongliang Wang,Juntao Li,Zhiqiang Zhang,Kun Gai,Dongyan Zhao,Rui Yan
発行日 2025-03-12 06:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Stick to Facts: Towards Fidelity-oriented Product Description Generation はコメントを受け付けていません

A Unified Framework for Motion Reasoning and Generation in Human Interaction

要約

大規模な言語モデル(LLMS)の最近の進歩により、自然で文脈的に関連するテキストを生成する能力が大幅に向上し、より多くの人間のようなAI相互作用が可能になりました。
ただし、複数の個人が協調的な動きに従事するインタラクティブな人間のような動きを生成して理解することは、これらの相互作用をモデル化する複雑さのために困難なままです。
さらに、ユーザーの命令や割り当てられた役割に動的に適応するチャットシステムなど、多様なインタラクティブなシナリオを処理するには、統一された多用途のモデルが必要です。
これらの課題に対処するために、言語と運動の両方のモダリティを統合して、マルチターンの会話コンテキストでインタラクティブな動きを効果的に理解、生成、制御する汎用性の高いインタラクティブなモーション言語モデルであるVIMを紹介します。
主にテキストからモーションやテキストへの動きなどの一方向のタスクに焦点を当てた以前の研究とは異なり、VIMは、モーションとテキストの両方のモダリティを同時に理解し、生成できる統一されたアーキテクチャを採用しています。
このタスクをサポートするための適切なデータセットがないことを考えると、153Kのインタラクティブモーションサンプルをカバーする82.7Kマルチターンインタラクティブモーション命令を含む大規模な命令調整データセットであるInter-MT2を導入します。
Inter-MT2は、モーション編集、質問応答、ストーリー生成を含む多様な指導シナリオにまたがり、既製の大手言語モデルとモーション拡散モデルを活用して、幅広いインタラクティブモーション命令を構築します。
モーションツーテキスト、テキストからモーション、反応、モーション編集、モーションシーケンスに関する推論など、複数のインタラクティブなモーション関連のタスクにわたるVIMの汎用性を広く評価します。

要約(オリジナル)

Recent advancements in large language models (LLMs) have significantly improved their ability to generate natural and contextually relevant text, enabling more human-like AI interactions. However, generating and understanding interactive human-like motion, where multiple individuals engage in coordinated movements, remains challenging due to the complexity of modeling these interactions. Additionally, a unified and versatile model is needed to handle diverse interactive scenarios, such as chat systems that dynamically adapt to user instructions and assigned roles. To address these challenges, we introduce VIM, the Versatile Interactive Motion-language model, which integrates both language and motion modalities to effectively understand, generate, and control interactive motions in multi-turn conversational contexts. Unlike previous studies that primarily focus on uni-directional tasks such as text-to-motion or motion-to-text, VIM employs a unified architecture capable of simultaneously understanding and generating both motion and text modalities. Given the absence of an appropriate dataset to support this task, we introduce Inter-MT2, a large-scale instruction-tuning dataset containing 82.7K multi-turn interactive motion instructions, covering 153K interactive motion samples. Inter-MT2 spans diverse instructional scenarios, including motion editing, question answering, and story generation, leveraging off-the-shelf large language models and motion diffusion models to construct a broad set of interactive motion instructions. We extensively evaluate the versatility of VIM across multiple interactive motion-related tasks, including motion-to-text, text-to-motion, reaction generation, motion editing, and reasoning about motion sequences.

arxiv情報

著者 Jeongeun Park,Sungjoon Choi,Sangdoo Yun
発行日 2025-03-12 05:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A Unified Framework for Motion Reasoning and Generation in Human Interaction はコメントを受け付けていません

MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification

要約

バッグベースの複数インスタンス学習(MIL)アプローチは、スライド画像全体(WSI)分類の主流の方法論として浮上しています。
ただし、ほとんどの既存の方法では、セグメント化されたトレーニング戦略が採用されています。これは、最初に事前に訓練された機能抽出器を使用して機能を抽出し、次にMILを介してこれらの機能を集約します。
このセグメント化されたトレーニングアプローチは、機能抽出ネットワークとMILネットワーク間の共同最適化が不十分になり、エンドツーエンドのジョイントの最適化を防ぎ、それによってモデルの全体的なパフォーマンスが制限されます。
さらに、従来の方法は通常、病理学者のマルチスケールの観測特性を無視して、固定サイズのすべてのパッチから特徴を抽出します。
これにより、腫瘍領域が最小限の割合を表している場合(Camelyon16データセットのように)、重要な計算リソース廃棄物をもたらすだけでなく、モデルを最適でないソリューションに導く可能性もあります。
これらの制限に対処するために、このペーパーでは、マルチスケール機能抽出を複数のインスタンス学習と統合するエンドツーエンドのマルチスケールWSI分類フレームワークを提案します。
具体的には、私たちのアプローチには次のものが含まれます。(1)非病原領域からの干渉を減らすためのセマンティック機能フィルタリングモジュール。
(2)さまざまなレベルで病的情報をキャプチャするマルチスケール機能抽出モジュール。
(3)グローバルモデリングと特徴統合のためのマルチスケール融合MILモジュール。
エンドツーエンドのトレーニング戦略を通じて、機能抽出器とMILネットワークの両方を同時に最適化し、それらの間の最大の互換性を確保します。
実験は、3つのクロスセンターデータセット(DigestPath2019、BCNB、およびUBC-OCEAN)で実施されました。
結果は、提案された方法が、精度(ACC)とAUCメトリックの両方の観点から、既存の最先端のアプローチを上回ることを示しています。

要約(オリジナル)

Bag-based Multiple Instance Learning (MIL) approaches have emerged as the mainstream methodology for Whole Slide Image (WSI) classification. However, most existing methods adopt a segmented training strategy, which first extracts features using a pre-trained feature extractor and then aggregates these features through MIL. This segmented training approach leads to insufficient collaborative optimization between the feature extraction network and the MIL network, preventing end-to-end joint optimization and thereby limiting the overall performance of the model. Additionally, conventional methods typically extract features from all patches of fixed size, ignoring the multi-scale observation characteristics of pathologists. This not only results in significant computational resource waste when tumor regions represent a minimal proportion (as in the Camelyon16 dataset) but may also lead the model to suboptimal solutions. To address these limitations, this paper proposes an end-to-end multi-scale WSI classification framework that integrates multi-scale feature extraction with multiple instance learning. Specifically, our approach includes: (1) a semantic feature filtering module to reduce interference from non-lesion areas; (2) a multi-scale feature extraction module to capture pathological information at different levels; and (3) a multi-scale fusion MIL module for global modeling and feature integration. Through an end-to-end training strategy, we simultaneously optimize both the feature extractor and MIL network, ensuring maximum compatibility between them. Experiments were conducted on three cross-center datasets (DigestPath2019, BCNB, and UBC-OCEAN). Results demonstrate that our proposed method outperforms existing state-of-the-art approaches in terms of both accuracy (ACC) and AUC metrics.

arxiv情報

著者 Jiangping Wen,Jinyu Wen,Meie Fang
発行日 2025-03-12 09:27:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification はコメントを受け付けていません

A Parallel-in-Time Newton’s Method for Nonlinear Model Predictive Control

要約

モデル予測制御(MPC)は、動的システムを最適な制御のための強力なフレームワークです。
ただし、MPCソルバーは、サンプリング頻度が低いシステムへのアプリケーションを制限する高い計算負担に悩まされています。
この問題は、反復手順内でMPCソルバーをネストする必要がある非線形および制約されたシステムでさらに増幅されます。
このホワイトペーパーでは、これらの問題に対処し、計画地平線上の対数計算時間スケーリングを実現するために、非常に並列ハードウェアを利用する制約された非線形最適化問題の平行時間アルゴリズムを開発します。
インテリアポイントの方法と乗数の交互方向方法に基づいて、時間平行二次ソルバーを開発し、速い収束と反復あたりの計算コストの削減を活用します。
並列化は、連想スキャンアルゴリズムを使用して並列化できる連想操作の観点からのサブ問題の再定式化に基づいています。
非線形および制約された動的システムの数値例に関するアプローチを検証します。

要約(オリジナル)

Model predictive control (MPC) is a powerful framework for optimal control of dynamical systems. However, MPC solvers suffer from a high computational burden that restricts their application to systems with low sampling frequency. This issue is further amplified in nonlinear and constrained systems that require nesting MPC solvers within iterative procedures. In this paper, we address these issues by developing parallel-in-time algorithms for constrained nonlinear optimization problems that take advantage of massively parallel hardware to achieve logarithmic computational time scaling over the planning horizon. We develop time-parallel second-order solvers based on interior point methods and the alternating direction method of multipliers, leveraging fast convergence and lower computational cost per iteration. The parallelization is based on a reformulation of the subproblems in terms of associative operations that can be parallelized using the associative scan algorithm. We validate our approach on numerical examples of nonlinear and constrained dynamical systems.

arxiv情報

著者 Casian Iacob,Hany Abdulsamad,Simo Särkkä
発行日 2025-03-11 09:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | A Parallel-in-Time Newton’s Method for Nonlinear Model Predictive Control はコメントを受け付けていません