I Was Blind but Now I See: Implementing Vision-Enabled Dialogue in Social Robots

要約

人間とコンピュータの相互作用が急速に進化する状況において、視覚機能を会話型エージェントに統合することは、重要な進歩となります。
このペーパーでは、大規模言語モデル (GPT-4、IDEFICS など) の最新の進歩を活用して、従来のテキストベースのプロンプトをリアルタイムの視覚入力で強化するダイアログ マネージャーの初期実装について説明します。
LLM は、テキストのプロンプトと視覚的な刺激の両方を解釈するために使用され、より文脈を意識した会話エージェントを作成します。
画像の要約と対話を組み込んだシステムの迅速なエンジニアリングにより、コンテキストの保存と計算効率のバランスが確保されます。
このシステムを搭載したフルハット ロボットとの 6 つのインタラクションが報告され、得られた結果について説明および説明されています。
この論文では、このビジョン対応対話システムを実装することで、会話型エージェントがテキストと視覚的なモダリティをシームレスに融合させ、より豊かでコンテキストを意識した対話を可能にする未来を構想しています。

要約(オリジナル)

In the rapidly evolving landscape of human-computer interaction, the integration of vision capabilities into conversational agents stands as a crucial advancement. This paper presents an initial implementation of a dialogue manager that leverages the latest progress in Large Language Models (e.g., GPT-4, IDEFICS) to enhance the traditional text-based prompts with real-time visual input. LLMs are used to interpret both textual prompts and visual stimuli, creating a more contextually aware conversational agent. The system’s prompt engineering, incorporating dialogue with summarisation of the images, ensures a balance between context preservation and computational efficiency. Six interactions with a Furhat robot powered by this system are reported, illustrating and discussing the results obtained. By implementing this vision-enabled dialogue system, the paper envisions a future where conversational agents seamlessly blend textual and visual modalities, enabling richer, more context-aware dialogues.

arxiv情報

著者 Giulio Antonio Abbo,Tony Belpaeme
発行日 2023-11-15 13:47:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO パーマリンク