DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training

要約

このペーパーは、エージェントがタスクについて能動的に質問できる環境での具体的な指示に従うタスクである DialFRED タスクに焦点を当てています。
この課題に対処するために、私たちは DialMAT を提案します。
DialMAT は、言語、画像、アクションの潜在空間に敵対的な摂動を組み込む、モーメントベースの敵対的トレーニングを導入します。
さらに、基礎モデルを言語と画像の両方に適用するクロスモーダル並列特徴抽出メカニズムが導入されています。
DialFRED データセットから構築されたデータセットを使用してモデルを評価し、成功率とパス加重成功率の点でベースライン手法と比較して優れたパフォーマンスを実証しました。
このモデルは、CVPR 2023 Embodied AI ワークショップで開催された DialFRED Challenge でトップの座を確保しました。

要約(オリジナル)

This paper focuses on the DialFRED task, which is the task of embodied instruction following in a setting where an agent can actively ask questions about the task. To address this task, we propose DialMAT. DialMAT introduces Moment-based Adversarial Training, which incorporates adversarial perturbations into the latent space of language, image, and action. Additionally, it introduces a crossmodal parallel feature extraction mechanism that applies foundation models to both language and image. We evaluated our model using a dataset constructed from the DialFRED dataset and demonstrated superior performance compared to the baseline method in terms of success rate and path weighted success rate. The model secured the top position in the DialFRED Challenge, which took place at the CVPR 2023 Embodied AI workshop.

arxiv情報

著者 Kanta Kaneda,Ryosuke Korekata,Yuiga Wada,Shunya Nagashima,Motonari Kambara,Yui Iioka,Haruka Matsuo,Yuto Imai,Takayuki Nishimura,Komei Sugiura
発行日 2023-11-12 14:12:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク