要約
テキストから画像への合成における最近の進歩により、特定のコンテキストに対する機械の想像力を視覚化することが可能になりました。
一方、テキストを生成するとき、人間の作家は創造的な視覚化に才能があり、物語を言葉で書き留める前に青写真として想像力を形成することにより、文章を強化します。
このような認知プロセスに触発されて、視覚情報を利用し、テキスト生成を導くコンテキストの全体像を構築する能力を機械に与えることができるかどうかという自然な疑問を投げかけます。
この作業では、機械で生成された画像を使用して、自由形式のテキスト生成で言語モデルをガイドする iNLG を提案します。
実験と分析は、テキスト補完、ストーリー生成、概念からテキストへの生成など、少数ショットと完全データの両方のシナリオで、オープンエンドのテキスト生成タスクに対する iNLG の有効性を示しています。
自動メトリックと人間による評価の両方により、iNLG によって生成されたテキスト スニペットが一貫性があり有益であり、マイナーな劣化が見られることが確認されます。
要約(オリジナル)
Recent advances in text-to-image synthesis make it possible to visualize machine imaginations for a given context. On the other hand, when generating text, human writers are gifted at creative visualization, which enhances their writings by forming imaginations as blueprints before putting down the stories in words. Inspired by such a cognitive process, we ask the natural question of whether we can endow machines with the same ability to utilize visual information and construct a general picture of the context to guide text generation. In this work, we propose iNLG that uses machine-generated images to guide language models in open-ended text generation. The experiments and analyses demonstrate the effectiveness of iNLG on open-ended text generation tasks, including text completion, story generation, and concept-to-text generation in both few-shot and full-data scenarios. Both automatic metrics and human evaluations verify that the text snippets generated by our iNLG are coherent and informative while displaying minor degeneration.
arxiv情報
著者 | Wanrong Zhu,An Yan,Yujie Lu,Wenda Xu,Xin Eric Wang,Miguel Eckstein,William Yang Wang |
発行日 | 2023-02-15 03:16:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google