Bidirectional Intent Communication: A Role for Large Foundation Models

要約

マルチモーダル基盤モデルの統合により、自律エージェントの言語理解、認識、および計画能力が大幅に強化されました。
しかし、既存の作品では人間との対話を最小限に抑えた \emph{タスク中心} アプローチが採用されていますが、これらのモデルを人間と対話し協力できる \emph{ユーザー中心} 支援ロボットの開発に適用することはまだ検討されていません。
本稿では、ロボットを人間との共有空間にシームレスに統合するために設計されたフレームワーク「Bident」を紹介します。
bident は、音声やユーザーの視線のダイナミクスなどのマルチモーダル入力を組み込むことで、インタラクティブなエクスペリエンスを強化します。
さらに、Bident は口頭での発話とジェスチャーなどの物理的な動作をサポートしているため、人間とロボットの双方向の対話に多用途に使用できます。
潜在的な用途としては、ロボットが個人の学習スタイルや学習ペースに適応できる個別化教育や、ロボットが家庭や職場環境で個別化されたサポート、交際、日常支援を提供できる医療などが挙げられます。

要約(オリジナル)

Integrating multimodal foundation models has significantly enhanced autonomous agents’ language comprehension, perception, and planning capabilities. However, while existing works adopt a \emph{task-centric} approach with minimal human interaction, applying these models to developing assistive \emph{user-centric} robots that can interact and cooperate with humans remains underexplored. This paper introduces “Bident”, a framework designed to integrate robots seamlessly into shared spaces with humans. Bident enhances the interactive experience by incorporating multimodal inputs like speech and user gaze dynamics. Furthermore, Bident supports verbal utterances and physical actions like gestures, making it versatile for bidirectional human-robot interactions. Potential applications include personalized education, where robots can adapt to individual learning styles and paces, and healthcare, where robots can offer personalized support, companionship, and everyday assistance in the home and workplace environments.

arxiv情報

著者 Tim Schreiter,Rishi Hazra,Jens Rüppel,Andrey Rudenko
発行日 2024-08-20 06:52:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO パーマリンク