要約
我々は、差別的かつ談話に適した指示表現(RE)を生成することを目的とした、視覚に基づいた対話における指示表現生成(REG)へのアプローチを提案します。
私たちの方法は 2 段階のプロセスで構成されます。
まず、REG をテキストおよび画像条件付きの次トークン予測タスクとしてモデル化します。
RE は、先行する言語コンテキストと指示対象の視覚的表現に基づいて自己回帰的に生成されます。
第二に、REG モデルで生成された候補 RE が談話依存の識別力に基づいて再ランク付けされる生成および再ランク付け戦略の一部として、談話を意識した理解ガイドの使用を提案します。
人間による評価の結果は、私たちが提案する 2 段階のアプローチが識別 RE の生成に効果的であり、グリーディ デコーディングを使用して生成されたものと比較して、再ランク付けされた RE のテキスト画像検索精度の点でパフォーマンスが高いことを示しています。
要約(オリジナル)
We propose an approach to referring expression generation (REG) in visually grounded dialogue that is meant to produce referring expressions (REs) that are both discriminative and discourse-appropriate. Our method constitutes a two-stage process. First, we model REG as a text- and image-conditioned next-token prediction task. REs are autoregressively generated based on their preceding linguistic context and a visual representation of the referent. Second, we propose the use of discourse-aware comprehension guiding as part of a generate-and-rerank strategy through which candidate REs generated with our REG model are reranked based on their discourse-dependent discriminatory power. Results from our human evaluation indicate that our proposed two-stage approach is effective in producing discriminative REs, with higher performance in terms of text-image retrieval accuracy for reranked REs compared to those generated using greedy decoding.
arxiv情報
著者 | Bram Willemsen,Gabriel Skantze |
発行日 | 2024-09-09 15:33:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google