ReCorD: Reasoning and Correcting Diffusion for HOI Generation

要約

拡散モデルは、自然言語を活用してマルチメディア コンテンツの作成をガイドすることで、画像生成に革命をもたらします。
このような生成モデルは大幅に進歩しましたが、特にポーズやオブジェクトの配置の精度に関して、人間とオブジェクトの詳細な相互作用を描写する際には依然として課題が残っています。
これらの課題に対処するために、私たちは、Reasoning and Correcting Diffusion (ReCorD) というトレーニング不要の手法を導入しました。
私たちのモデルは、潜在拡散モデルと視覚言語モデルを組み合わせて生成プロセスを改良し、HOI の正確な描写を保証します。
我々は、インタラクションの解釈を改善するインタラクション認識推論モジュールと、より正確な HOI 生成のために出力画像を繊細に調整するインタラクション修正モジュールを提案します。
ReCorD は、ポーズの選択とオブジェクトの位置決めの細心の注意を払ったプロセスを通じて、計算要件を効率的に削減しながら、生成された画像の優れた忠実度を実現します。
私たちは 3 つのベンチマークで包括的な実験を実施し、テキストから画像への生成タスクの解決における大幅な進歩を実証し、HOI 分類スコア、FID および Verb CLIP スコアにおいて既存の手法を上回るパフォーマンスで複雑なインタラクションを正確にレンダリングする ReCorD の能力を実証しました。
プロジェクトの Web サイトは https://alberthkyhky.github.io/ReCorD/ から入手できます。

要約(オリジナル)

Diffusion models revolutionize image generation by leveraging natural language to guide the creation of multimedia content. Despite significant advancements in such generative models, challenges persist in depicting detailed human-object interactions, especially regarding pose and object placement accuracy. We introduce a training-free method named Reasoning and Correcting Diffusion (ReCorD) to address these challenges. Our model couples Latent Diffusion Models with Visual Language Models to refine the generation process, ensuring precise depictions of HOIs. We propose an interaction-aware reasoning module to improve the interpretation of the interaction, along with an interaction correcting module to refine the output image for more precise HOI generation delicately. Through a meticulous process of pose selection and object positioning, ReCorD achieves superior fidelity in generated images while efficiently reducing computational requirements. We conduct comprehensive experiments on three benchmarks to demonstrate the significant progress in solving text-to-image generation tasks, showcasing ReCorD’s ability to render complex interactions accurately by outperforming existing methods in HOI classification score, as well as FID and Verb CLIP-Score. Project website is available at https://alberthkyhky.github.io/ReCorD/ .

arxiv情報

著者 Jian-Yu Jiang-Lin,Kang-Yang Huang,Ling Lo,Yi-Ning Huang,Terence Lin,Jhih-Ciang Wu,Hong-Han Shuai,Wen-Huang Cheng
発行日 2024-07-25 10:06:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク