New Benchmarks for Accountable Text-based Visual Re-creation

要約

コマンドが与えられると、人間は考えた後にアクションを直接実行するか、それを拒否することを選択し、同時に合理的なフィードバックを得ることができます。
ただし、既存のテキストから画像への生成方法の動作は、制御不能で無責任です。
このホワイトペーパーでは、これらの禁止された命令に対して説明責任を負うことができるかどうか (ノーと言って理由を説明するかどうか) を検証するための広範な実験を行います。
この目的のために、新しいテキストベースのビジュアル再作成タスクを定義し、新しい合成 CLEVR-NOT データセット (620K) と手動で描かれた Fruit-NOT データセット (50K) を構築します。
私たちの方法では、クエリとして 1 つのテキストと画像のペアがマシンに供給され、モデルは視覚的およびテキスト的な推論の後にイエスまたはノーの答えを返します。
答えが「はい」の場合、イメージ オート エンコーダーと自己回帰トランスフォーマーは、画質を確保するという前提の下で視覚的な再作成を完了する必要があります。それ以外の場合、システムは、コマンドを完了または禁止できない理由を説明する必要があります。
不確実性と不完全なユーザークエリに直面した場合の画質、回答の精度、モデルの動作に関する実験結果の詳細な分析を提供します。
私たちの結果は、テキストと視覚の両方の推論に対する単一のモデルの難しさを示しています。
また、調査と調査結果が、テキストベースの画像生成モデルの説明責任について貴重な洞察をもたらすことを願っています。
コードとデータセットは https://matrix-alpha.github.io にあります。

要約(オリジナル)

Given a command, humans can directly execute the action after thinking or choose to reject it, with reasonable feedback at the same time. However, the behavior of existing text-to-image generation methods are uncontrollable and irresponsible. In this paper, we construct extensive experiments to verify whether they can be accountable (say no and explain why) for those prohibited instructions. To this end, we define a novel text-based visual re-creation task and construct new synthetic CLEVR-NOT dataset (620K) and manually pictured Fruit-NOT dataset (50K). In our method, one text-image pair as the query is fed into the machine, and the model gives a yes or no answer after visual and textual reasoning. If the answer is yes, the image auto-encoder and auto-regressive transformer must complete the visual re-creation under the premise of ensuring image quality, otherwise the system needs to explain why the commands cannot be completed or prohibited. We provide a detailed analysis of experimental results in image quality, answer accuracy, and model behavior in the face of uncertainty and imperfect user queries. Our results demonstrate the difficulty of a single model for both textual and visual reasoning. We also hope our explorations and findings can bring valuable insights about the accountability of text-based image generation models. Code and datasets can be found at https://matrix-alpha.github.io.

arxiv情報

著者 Zhiwei Zhang,Yuliang Liu
発行日 2023-03-10 15:35:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク