SimpleMTOD: A Simple Language Model for Multimodal Task-Oriented Dialogue with Symbolic Scene Representation

要約

SimpleMTOD は、マルチモーダルなタスク指向のダイアログ内のいくつかのサブタスクをシーケンス予測タスクとして再キャストする単純な言語モデルです。
SimpleMTOD は、ユニモーダルなタスク指向の対話で成功することがすでに証明されている大規模なトランスフォーマーベースの自動回帰アーキテクチャに基づいて構築されており、事前トレーニングされた GPT-2 からの転移学習を効果的に活用します。
視覚的なシーンのセマンティクスをキャプチャするために、シーン内のオブジェクトに対してローカル トークンと非ローカライズされたトークンの両方を導入します。
非ローカライズされたトークンは、特定のオブジェクト自体ではなくオブジェクトのタイプを表すため、データセット全体で一貫した意味を持ちます。
SimpleMTOD は、SIMMC 2.0 test-std データセットの応答生成サブタスクで最先端の BLEU スコア (0.327) を達成しながら、他のマルチモーダル サブタスク (曖昧さ回避、相互参照解決、ダイアログ状態追跡) で同等のパフォーマンスを発揮します。

これは、視覚 (および非視覚) 情報を抽出するために最小限のアプローチを採用しているにもかかわらずです。
さらに、このモデルは、分類ヘッドなどのタスク固有のアーキテクチャの変更に依存しません。

要約(オリジナル)

SimpleMTOD is a simple language model which recasts several sub-tasks in multimodal task-oriented dialogues as sequence prediction tasks. SimpleMTOD is built on a large-scale transformer-based auto-regressive architecture, which has already proven to be successful in uni-modal task-oriented dialogues, and effectively leverages transfer learning from pre-trained GPT-2. In-order to capture the semantics of visual scenes, we introduce both local and de-localized tokens for objects within a scene. De-localized tokens represent the type of an object rather than the specific object itself and so possess a consistent meaning across the dataset. SimpleMTOD achieves a state-of-the-art BLEU score (0.327) in the Response Generation sub-task of the SIMMC 2.0 test-std dataset while performing on par in other multimodal sub-tasks: Disambiguation, Coreference Resolution, and Dialog State Tracking. This is despite taking a minimalist approach for extracting visual (and non-visual) information. In addition the model does not rely on task-specific architectural changes such as classification heads.

arxiv情報

著者 Bhathiya Hemanthage,Christian Dondrup,Phil Bartie,Oliver Lemon
発行日 2023-07-10 21:16:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク