要約
産業シーンのモデリングは、産業製造のシミュレーションに不可欠です。
大規模な言語モデル(LLM)は、テキストの説明から一般的な3Dシーンを生成する際に大きな進歩を示していますが、LLMSで産業シーンを生成することは、正確な測定と位置決めに対する需要のために独自の課題となり、空間的配置に対する複雑な計画が必要です。
この課題に対処するために、C#コードを通じて産業シーンを生成するためのLLMベースのエージェントであるSceneGenagentを紹介します。
SceneGenagentは、産業シナリオの定量的要件を満たすために、構造化された計算可能な形式、レイアウト検証、および反復改良を通じて、正確なレイアウト計画を保証します。
実験結果は、Scenegenagentを搭載したLLMSが元のパフォーマンスを超え、現実世界の産業シーン生成タスクで最大81.0%の成功率に達し、ほとんどのシーン生成要件を効果的に満たすことを示しています。
アクセシビリティをさらに強化するために、SceneInStructを構築します。SceneInStructは、SceneGenagentに統合するためにオープンソースLLMを微調整するために設計されたデータセットです。
実験では、シーンインストラクチャの微調整オープンソースLLMが大幅なパフォーマンスの改善をもたらし、LLAMA3.1-70BがGPT-4Oの機能に近づいていることを示しています。
コードとデータは、https://github.com/thudm/scenegenagentで入手できます。
要約(オリジナル)
The modeling of industrial scenes is essential for simulations in industrial manufacturing. While large language models (LLMs) have shown significant progress in generating general 3D scenes from textual descriptions, generating industrial scenes with LLMs poses a unique challenge due to their demand for precise measurements and positioning, requiring complex planning over spatial arrangement. To address this challenge, we introduce SceneGenAgent, an LLM-based agent for generating industrial scenes through C# code. SceneGenAgent ensures precise layout planning through a structured and calculable format, layout verification, and iterative refinement to meet the quantitative requirements of industrial scenarios. Experiment results demonstrate that LLMs powered by SceneGenAgent exceed their original performance, reaching up to 81.0% success rate in real-world industrial scene generation tasks and effectively meeting most scene generation requirements. To further enhance accessibility, we construct SceneInstruct, a dataset designed for fine-tuning open-source LLMs to integrate into SceneGenAgent. Experiments show that fine-tuning open-source LLMs on SceneInstruct yields significant performance improvements, with Llama3.1-70B approaching the capabilities of GPT-4o. Our code and data are available at https://github.com/THUDM/SceneGenAgent .
arxiv情報
著者 | Xiao Xia,Dan Zhang,Zibo Liao,Zhenyu Hou,Tianrui Sun,Jing Li,Ling Fu,Yuxiao Dong |
発行日 | 2025-05-15 16:40:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google