SGGNet$^2$: Speech-Scene Graph Grounding Network for Speech-guided Navigation

要約

音声言語はアクセスしやすく効率的なインターフェースとして機能し、専門家以外のユーザーや障害のあるユーザーでも複雑なアシスタント ロボットと対話できるようになります。
ただし、話者の声や環境ノイズの音響のばらつきにより、グラウンディング言語の発話を正確に行うことは大きな課題となります。
この研究では、自動音声認識 (ASR) システムから得られる、正しく認識された単語と誤認識された単語の間の音響的類似性を利用することにより、話された発話を堅牢に根拠付ける、新しい音声シーン グラフグラウンディング ネットワーク (SGGNet$^2$) を提案します。
音響の類似性を組み込むために、以前の接地モデルであるシーングラフベースの接地ネットワーク (SGGNet) を、NVIDIA NeMo の ASR モデルで拡張しました。
これは、音声発音の潜在ベクトルを SGGNet 内の BERT ベースの接地ネットワークに供給することで実現します。
私たちは、定性的および定量的な研究を通じて、グラウンディングにおける音声コマンドの潜在ベクトルの使用の有効性を評価します。
また、Rainbow Robotics の実際の四足ロボット RBQ-3 を使用して、音声ベースのナビゲーション タスクにおける SGGNet$^2$ の機能も実証します。

要約(オリジナル)

The spoken language serves as an accessible and efficient interface, enabling non-experts and disabled users to interact with complex assistant robots. However, accurately grounding language utterances gives a significant challenge due to the acoustic variability in speakers’ voices and environmental noise. In this work, we propose a novel speech-scene graph grounding network (SGGNet$^2$) that robustly grounds spoken utterances by leveraging the acoustic similarity between correctly recognized and misrecognized words obtained from automatic speech recognition (ASR) systems. To incorporate the acoustic similarity, we extend our previous grounding model, the scene-graph-based grounding network (SGGNet), with the ASR model from NVIDIA NeMo. We accomplish this by feeding the latent vector of speech pronunciations into the BERT-based grounding network within SGGNet. We evaluate the effectiveness of using latent vectors of speech commands in grounding through qualitative and quantitative studies. We also demonstrate the capability of SGGNet$^2$ in a speech-based navigation task using a real quadruped robot, RBQ-3, from Rainbow Robotics.

arxiv情報

著者 Dohyun Kim,Yeseung Kim,Jaehwi Jang,Minjae Song,Woojin Choi,Daehyung Park
発行日 2024-04-15 01:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク