Syntax-Guided Transformers: Elevating Compositional Generalization and Grounding in Multimodal Environments

要約

構成の一般化、つまりコンポーネントの理解を新しい構成に推定するインテリジェント モデルの能力は、AI 研究、特にマルチモーダル環境における基本的かつ困難な側面です。
この研究では、言語の構文構造を利用して構成の一般化を促進することで、この課題に対処します。
この論文では、特にテキスト入力解析から派生したアテンション マスキング技術を通じて、構文基盤の重要性を高めています。
マルチモーダルグラウンディング問題において構文情報を使用するメリットを紹介し、評価します。
根拠に基づいた構成一般化に関する私たちの結果は、Transformer エンコーダ全体での重み共有を使用した場合の、さまざまなタスクにわたる依存関係解析のプラスの効果を強調しています。
この結果は、マルチモーダルグラウンディングとパラメータ効率の高いモデリングにおける最先端の技術を推進し、将来の研究のための洞察を提供します。

要約(オリジナル)

Compositional generalization, the ability of intelligent models to extrapolate understanding of components to novel compositions, is a fundamental yet challenging facet in AI research, especially within multimodal environments. In this work, we address this challenge by exploiting the syntactic structure of language to boost compositional generalization. This paper elevates the importance of syntactic grounding, particularly through attention masking techniques derived from text input parsing. We introduce and evaluate the merits of using syntactic information in the multimodal grounding problem. Our results on grounded compositional generalization underscore the positive impact of dependency parsing across diverse tasks when utilized with Weight Sharing across the Transformer encoder. The results push the state-of-the-art in multimodal grounding and parameter-efficient modeling and provide insights for future research.

arxiv情報

著者 Danial Kamali,Parisa Kordjamshidi
発行日 2023-11-07 21:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO パーマリンク