要約
このペーパーでは、トポロジー最適化 (TO) における機械学習を進歩させるために設計された新しいオープンソースの強化学習 (RL) 環境である構造最適化ジム (SOgym) について紹介します。
SOgym を使用すると、TO の物理学を報酬関数に統合することで、RL エージェントが物理的に実行可能で構造的に堅牢な設計を生成できます。
スケーラビリティを強化するために、SOgym は環境とエージェントの間のメッシュに依存しないインターフェイスとして機能マッピング手法を活用し、メッシュ解像度に関係なく設計変数との効率的な対話を可能にします。
ベースラインの結果では、モデルフリーの Proximal Policy Optimization エージェントとモデルベースの DreamerV3 エージェントを使用します。
3 つの観察空間構成がテストされました。
TopOpt ゲームからインスピレーションを得た構成は、量的制約の下でコンプライアンスを最小限に抑える構造設計における学生の直観を向上させる対話型教育ツールであり、パフォーマンスとサンプル効率の点で最高のパフォーマンスを発揮しました。
DreamerV3 の 100M パラメータ バージョンは、従来の最適化手法で達成されたベースライン コンプライアンスの 54% 以内の構造を生成し、切断率は 0% でした。これは、切断された負荷パスに苦戦することが多い教師あり学習アプローチを改善したものです。
エージェントの学習率と、TopOpt ゲーム実験による工学部の学生の学習率を比較すると、DreamerV3-100M モデルの学習率は約 4 桁低いことがわかり、試行錯誤を経てゼロからトレーニングされたポリシーとしては素晴らしい成果です。
これらの結果は、継続的な TO 問題を解決する RL の潜在力と、多様な設計ソリューションを探索しそこから学ぶ能力を示唆しています。
SOgym は、複雑な構造設計の課題に対応する RL エージェントを開発するためのプラットフォームを提供しており、この分野でのさらなる研究をサポートするために一般公開されています。
要約(オリジナル)
This paper introduces the Structural Optimization gym (SOgym), a novel open-source Reinforcement Learning (RL) environment designed to advance machine learning in Topology Optimization (TO). SOgym enables RL agents to generate physically viable and structurally robust designs by integrating the physics of TO into the reward function. To enhance scalability, SOgym leverages feature-mapping methods as a mesh-independent interface between the environment and the agent, allowing efficient interaction with the design variables regardless of mesh resolution. Baseline results use a model-free Proximal Policy Optimization agent and a model-based DreamerV3 agent. Three observation space configurations were tested. The TopOpt game-inspired configuration, an interactive educational tool that improves students’ intuition in designing structures to minimize compliance under volume constraints, performed best in terms of performance and sample efficiency. The 100M parameter version of DreamerV3 produced structures within 54% of the baseline compliance achieved by traditional optimization methods and a 0% disconnection rate, an improvement over supervised learning approaches that often struggle with disconnected load paths. When comparing the learning rates of the agents to those of engineering students from the TopOpt game experiment, the DreamerV3-100M model shows a learning rate approximately four orders of magnitude lower, an impressive feat for a policy trained from scratch through trial and error. These results suggest RL’s potential to solve continuous TO problems and its capacity to explore and learn from diverse design solutions. SOgym provides a platform for developing RL agents for complex structural design challenges and is publicly available to support further research in the field.
arxiv情報
著者 | Thomas Rochefort-Beaudoin,Aurelian Vadean,Niels Aage,Sofiane Achiche |
発行日 | 2024-07-12 14:31:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google