要約
AIが生成したコンテンツは、モノリシックモデルからモジュラーワークフロー、特にComfyuiなどのプラットフォームに進化し、クリエイティブパイプラインでのカスタマイズを可能にします。
ただし、効果的なワークフローを作成するには、多数の専門化されたコンポーネントを調整するために優れた専門知識が必要であり、ユーザーに急な学習曲線を提示します。
この課題に対処するために、自動化されたワークフロー生成の最初の大きな推論モデルであるComfyui-R1を紹介します。
4Kワークフローのキュレーションされたデータセットから始めて、ノード選択、ワークフロー計画、コードレベルのワークフロー表現など、長い考え方(COT)の推論データを構築します。
Comfyui-R1は、2段階のフレームワークを通じてトレーニングされています。(1)コットスタートのための微調整、モデルをComfyuiドメインに適合させます。
(2)微調整されたルールメトリックハイブリッド報酬に導かれ、形式の有効性、構造的完全性、およびノードレベルの忠実度を確保するための推論能力を奨励するための強化学習。
実験では、7Bパラメーターモデルが97 \%形式の有効性レートを達成し、高いパスレート、ノードレベル、グラフレベルのF1スコアとともに、GPT-4OやClaudeシリーズなどの主要なクローズドソースモデルを採用する以前の最先端の方法を大幅に上回っています。
さらなる分析では、推論プロセスの重要な役割と、ワークフローをコードに変換する利点を強調しています。
定性的比較により、多様なノードを使用した複雑なワークフローを合成することの強みが明らかになり、AIアート作成における長いCOT推論の可能性を強調しています。
要約(オリジナル)
AI-generated content has evolved from monolithic models to modular workflows, particularly on platforms like ComfyUI, enabling customization in creative pipelines. However, crafting effective workflows requires great expertise to orchestrate numerous specialized components, presenting a steep learning curve for users. To address this challenge, we introduce ComfyUI-R1, the first large reasoning model for automated workflow generation. Starting with our curated dataset of 4K workflows, we construct long chain-of-thought (CoT) reasoning data, including node selection, workflow planning, and code-level workflow representation. ComfyUI-R1 is trained through a two-stage framework: (1) CoT fine-tuning for cold start, adapting models to the ComfyUI domain; (2) reinforcement learning for incentivizing reasoning capability, guided by a fine-grained rule-metric hybrid reward, ensuring format validity, structural integrity, and node-level fidelity. Experiments show that our 7B-parameter model achieves a 97\% format validity rate, along with high pass rate, node-level and graph-level F1 scores, significantly surpassing prior state-of-the-art methods that employ leading closed-source models such as GPT-4o and Claude series. Further analysis highlights the critical role of the reasoning process and the advantage of transforming workflows into code. Qualitative comparison reveals our strength in synthesizing intricate workflows with diverse nodes, underscoring the potential of long CoT reasoning in AI art creation.
arxiv情報
著者 | Zhenran Xu,Yiyu Wang,Xue Yang,Longyue Wang,Weihua Luo,Kaifu Zhang,Baotian Hu,Min Zhang |
発行日 | 2025-06-11 14:35:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google