Multimodal Speech Recognition for Language-Guided Embodied Agents

要約

言語ガイド付きの具体化されたエージェントのベンチマークは通常、テキストベースの指示を前提としていますが、展開されたエージェントは音声による指示に遭遇します。
自動音声認識 (ASR) モデルは入力ギャップを埋めることができますが、誤った ASR トランスクリプトは、エージェントがタスクを完了する能力を損なう可能性があります。
この作業では、マルチモーダル ASR モデルをトレーニングして、付随する視覚的なコンテキストを考慮して、音声による指示を書き写す際のエラーを減らすことを提案します。
ALFRED タスク完了データセットから合成された音声指示のデータセットでモデルをトレーニングします。そこで、音声単語を体系的にマスキングすることで音響ノイズをシミュレートします。
視覚的な観察を利用すると、マスクされた単語の回復が容易になり、マルチモーダル ASR モデルは、ユニモーダル ベースラインよりも最大 30% 多くのマスクされた単語を回復できることがわかりました。
また、テキストで訓練された具現化されたエージェントは、マルチモーダル ASR モデルから転写された指示に従うことで、より頻繁にタスクを正常に完了することもわかりました。

要約(オリジナル)

Benchmarks for language-guided embodied agents typically assume text-based instructions, but deployed agents will encounter spoken instructions. While Automatic Speech Recognition (ASR) models can bridge the input gap, erroneous ASR transcripts can hurt the agents’ ability to complete tasks. In this work, we propose training a multimodal ASR model to reduce errors in transcribing spoken instructions by considering the accompanying visual context. We train our model on a dataset of spoken instructions, synthesized from the ALFRED task completion dataset, where we simulate acoustic noise by systematically masking spoken words. We find that utilizing visual observations facilitates masked word recovery, with multimodal ASR models recovering up to 30% more masked words than unimodal baselines. We also find that a text-trained embodied agent successfully completes tasks more often by following transcribed instructions from multimodal ASR models.

arxiv情報

著者 Allen Chang,Xiaoyuan Zhu,Aarav Monga,Seoho Ahn,Tejas Srinivasan,Jesse Thomason
発行日 2023-02-27 18:41:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク