VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness

要約

最近の大規模なテキストからイメージまでの拡散モデルは、フォトリアリスティックな画像を生成しますが、さまざまな相互作用単語を区別する能力が限られているため、人間とオブジェクトの間の相互作用を正確に描写するのに苦労します。
この作業では、テキスト間拡散モデル内で微妙な相互作用をキャプチャするという課題に対処するためにVerbdiffを提案します。
Verbdiffは、相互作用の単語とオブジェクトの間のバイアスを弱める新しいテキストから画像への生成モデルであり、相互作用の理解を高めます。
具体的には、周波数ベースのアンカー語からさまざまな相互作用ワードを解き、生成された画像からローカライズされた相互作用領域を活用して、モデルが特徴的な条件なしで特徴的な単語でセマンティクスをよりよくキャプチャできるようにします。
私たちのアプローチにより、モデルは人間とオブジェクトの間の意図した相互作用を正確に理解し、指定された動詞と並べられた正確な相互作用を備えた高品質の画像を作成できます。
HICO-DETデータセットでの広範な実験は、以前のアプローチと比較した方法の有効性を示しています。

要約(オリジナル)

Recent large-scale text-to-image diffusion models generate photorealistic images but often struggle to accurately depict interactions between humans and objects due to their limited ability to differentiate various interaction words. In this work, we propose VerbDiff to address the challenge of capturing nuanced interactions within text-to-image diffusion models. VerbDiff is a novel text-to-image generation model that weakens the bias between interaction words and objects, enhancing the understanding of interactions. Specifically, we disentangle various interaction words from frequency-based anchor words and leverage localized interaction regions from generated images to help the model better capture semantics in distinctive words without extra conditions. Our approach enables the model to accurately understand the intended interaction between humans and objects, producing high-quality images with accurate interactions aligned with specified verbs. Extensive experiments on the HICO-DET dataset demonstrate the effectiveness of our method compared to previous approaches.

arxiv情報

著者 SeungJu Cha,Kwanyoung Lee,Ye-Chan Kim,Hyunwoo Oh,Dong-Jin Kim
発行日 2025-03-20 17:56:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.MM パーマリンク