要約
機械の自律性と人間による制御の実現は、対話型 AI システムの設計において異なる目的を表すことがよくあります。
Stable Diffusion などの視覚生成基盤モデルは、特に任意の言語でプロンプトが表示された場合に、これらの目標を達成するのに有望です。
ただし、空間的、構造的、または幾何学的制御を使用して画像を生成するには不十分なことがよくあります。
単一の統一モデルでさまざまな視覚条件に対応できるこのようなコントロールの統合は、未解決の課題のままです。
これに応えて、任意の言語プロンプトを許可しながら、単一のフレームワーク内で制御可能なさまざまな条件から画像への (C2I) タスクを統合する新しい生成基盤モデルである UniControl を導入します。
UniControl を使用すると、ピクセル レベルの正確な画像生成が可能になります。視覚的な条件が主に生成される構造に影響を与え、言語プロンプトがスタイルとコンテキストをガイドします。
UniControl に多様な視覚条件を処理できる機能を装備するために、事前トレーニングされたテキストから画像への拡散モデルを強化し、タスク認識型の HyperNet を導入して拡散モデルを調整し、さまざまな C2I タスクに同時に適応できるようにします。
9 つのユニークな C2I タスクでトレーニングされた UniControl は、目に見えない視覚的条件下でも優れたゼロショット生成能力を実証します。
実験結果は、UniControl が同等のモデル サイズの単一タスク制御メソッドのパフォーマンスを上回ることが多いことを示しています。
このコントロールの多用途性により、UniControl は制御可能なビジュアル生成の分野における重要な進歩として位置付けられます。
要約(オリジナル)
Achieving machine autonomy and human control often represent divergent objectives in the design of interactive AI systems. Visual generative foundation models such as Stable Diffusion show promise in navigating these goals, especially when prompted with arbitrary languages. However, they often fall short in generating images with spatial, structural, or geometric controls. The integration of such controls, which can accommodate various visual conditions in a single unified model, remains an unaddressed challenge. In response, we introduce UniControl, a new generative foundation model that consolidates a wide array of controllable condition-to-image (C2I) tasks within a singular framework, while still allowing for arbitrary language prompts. UniControl enables pixel-level-precise image generation, where visual conditions primarily influence the generated structures and language prompts guide the style and context. To equip UniControl with the capacity to handle diverse visual conditions, we augment pretrained text-to-image diffusion models and introduce a task-aware HyperNet to modulate the diffusion models, enabling the adaptation to different C2I tasks simultaneously. Trained on nine unique C2I tasks, UniControl demonstrates impressive zero-shot generation abilities with unseen visual conditions. Experimental results show that UniControl often surpasses the performance of single-task-controlled methods of comparable model sizes. This control versatility positions UniControl as a significant advancement in the realm of controllable visual generation.
arxiv情報
著者 | Can Qin,Shu Zhang,Ning Yu,Yihao Feng,Xinyi Yang,Yingbo Zhou,Huan Wang,Juan Carlos Niebles,Caiming Xiong,Silvio Savarese,Stefano Ermon,Yun Fu,Ran Xu |
発行日 | 2023-11-02 17:59:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google