要約
イラスト付き説明書、つまりユーザーのニーズに合わせてカスタマイズされた視覚的な説明書を生成する新しいタスクを導入します。
私たちは、このタスクに特有の要望を特定し、世代の妥当性、一貫性、有効性を測定するように設計された一連の自動および人的評価指標を通じてそれを形式化します。
私たちは、大規模言語モデル (LLM) の機能と強力なテキストから画像への生成拡散モデルを組み合わせて、テキストを入力として与えると、そのような図示された命令を生成する StackedDiffusion と呼ばれる単純なアプローチを提案します。
結果として得られるモデルは、ベースライン アプローチや最先端のマルチモーダル LLM を大幅に上回ります。
そして 30% の場合、ユーザーは人間が作成した記事よりもそれを好みます。
最も注目すべき点は、ユーザーの個別の状況に応じて中間ステップや画像を備えたパーソナライズされた指示など、Web 上の静的な記事が提供できるものをはるかに超えた、さまざまな新しくてエキサイティングなアプリケーションを可能にすることです。
要約(オリジナル)
We introduce the new task of generating Illustrated Instructions, i.e., visual instructions customized to a user’s needs. We identify desiderata unique to this task, and formalize it through a suite of automatic and human evaluation metrics, designed to measure the validity, consistency, and efficacy of the generations. We combine the power of large language models (LLMs) together with strong text-to-image generation diffusion models to propose a simple approach called StackedDiffusion, which generates such illustrated instructions given text as input. The resulting model strongly outperforms baseline approaches and state-of-the-art multimodal LLMs; and in 30% of cases, users even prefer it to human-generated articles. Most notably, it enables various new and exciting applications far beyond what static articles on the web can provide, such as personalized instructions complete with intermediate steps and pictures in response to a user’s individual situation.
arxiv情報
著者 | Sachit Menon,Ishan Misra,Rohit Girdhar |
発行日 | 2023-12-07 18:59:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google