要約
スケッチはアイデアを外部化するための多用途ツールとして機能し、さまざまな分野にわたる迅速な探索と視覚的なコミュニケーションを可能にします。
人工システムはコンテンツ作成と人間とコンピューターの対話において大幅な進歩をもたらしましたが、人間のスケッチの動的かつ抽象的な性質を捉えることは依然として困難です。
この作業では、ユーザーが動的な会話型の対話を通じてスケッチを作成、変更、改良できるようにする、言語駆動型の逐次スケッチ生成メソッドである SketchAgent を紹介します。
私たちのアプローチにはトレーニングや微調整は必要ありません。
代わりに、既製のマルチモーダル大規模言語モデル (LLM) の逐次的な性質と豊富な事前知識を活用します。
私たちは、コンテキスト内の例を通じてモデルに導入された直感的なスケッチ言語を提供し、文字列ベースのアクションを使用して「描画」できるようにします。
これらはベクトル グラフィックスに処理され、レンダリングされてピクセル キャンバス上にスケッチが作成され、さらなるタスクのために再びアクセスできます。
エージェントは一筆一筆描くことで、スケッチ本来の進化するダイナミックな性質を捉えます。
私たちは、SketchAgent がさまざまなプロンプトからスケッチを生成し、対話主導の描画に取り組み、人間のユーザーと有意義にコラボレーションできることを実証します。
要約(オリジナル)
Sketching serves as a versatile tool for externalizing ideas, enabling rapid exploration and visual communication that spans various disciplines. While artificial systems have driven substantial advances in content creation and human-computer interaction, capturing the dynamic and abstract nature of human sketching remains challenging. In this work, we introduce SketchAgent, a language-driven, sequential sketch generation method that enables users to create, modify, and refine sketches through dynamic, conversational interactions. Our approach requires no training or fine-tuning. Instead, we leverage the sequential nature and rich prior knowledge of off-the-shelf multimodal large language models (LLMs). We present an intuitive sketching language, introduced to the model through in-context examples, enabling it to ‘draw’ using string-based actions. These are processed into vector graphics and then rendered to create a sketch on a pixel canvas, which can be accessed again for further tasks. By drawing stroke by stroke, our agent captures the evolving, dynamic qualities intrinsic to sketching. We demonstrate that SketchAgent can generate sketches from diverse prompts, engage in dialogue-driven drawing, and collaborate meaningfully with human users.
arxiv情報
著者 | Yael Vinker,Tamar Rott Shaham,Kristine Zheng,Alex Zhao,Judith E Fan,Antonio Torralba |
発行日 | 2024-11-26 18:32:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google