Painter: Teaching Auto-regressive Language Models to Draw Sketches

要約

大規模言語モデル (LLM) は、自然言語理解において大きな進歩を遂げ、コンピューター ビジョン、ロボット工学、強化学習などの他の分野でも採用されることに成功しています。この研究では、LLM を画像生成タスクに適用します。
画像をペイントするための仮想ブラシ ストローク。
対応するブラシ ストロークを自動回帰的に生成することで、テキスト記述形式のユーザー プロンプトをスケッチに変換できる LLM である Painter を紹介します。
言語理解機能を維持しながら新しいタスクに合わせて微調整することで、大規模なテキスト コーパスで事前トレーニングされた既製の LLM に基づいて Painter を構築します。
いくつかのオブジェクト タイプとタスクをカバーするテキスト プロンプトと組み合わせた、多様なマルチオブジェクト スケッチのデータセットを作成します。
Painter は、テキストの説明からスケッチを生成したり、キャンバスからオブジェクトを削除したり、スケッチ内のオブジェクトを検出して分類したりできます。
これは、自動回帰画像生成に LLM を使用するという前例のない先駆的な研究ですが、結果は非常に有望です。

要約(オリジナル)

Large language models (LLMs) have made tremendous progress in natural language understanding and they have also been successfully adopted in other domains such as computer vision, robotics, reinforcement learning, etc. In this work, we apply LLMs to image generation tasks by directly generating the virtual brush strokes to paint an image. We present Painter, an LLM that can convert user prompts in text description format to sketches by generating the corresponding brush strokes in an auto-regressive way. We construct Painter based on off-the-shelf LLM that is pre-trained on a large text corpus, by fine-tuning it on the new task while preserving language understanding capabilities. We create a dataset of diverse multi-object sketches paired with textual prompts that covers several object types and tasks. Painter can generate sketches from text descriptions, remove objects from canvas, and detect and classify objects in sketches. Although this is an unprecedented pioneering work in using LLMs for auto-regressive image generation, the results are very encouraging.

arxiv情報

著者 Reza Pourreza,Apratim Bhattacharyya,Sunny Panchal,Mingu Lee,Pulkit Madan,Roland Memisevic
発行日 2023-08-16 17:18:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク