TWIZ-v2: The Wizard of Multimodal Conversational-Stimulus

要約

このレポートでは、Alexa プライズ タスクボット チャレンジ 2022 におけるタスク ウィザード チーム TWIZ のビジョン、課題、科学的貢献について説明します。私たちのビジョンは、役立つ、マルチモーダル、知識豊富で魅力的なアシスタントとして TWIZ ボットを構築することです。
複雑な手動タスクを正常に完了できるようにユーザーをガイドできます。
これを達成するために、私たちは 3 つの主要な研究課題に焦点を当てています。(1) 知識に基づいた方法で情報を提供することにより、人間の形をした会話。
(2) 音声、画像、ビデオなどのさまざまなモダリティを利用するマルチモーダル刺激。
(3) ゼロショット会話フロー。目に見えないシナリオに対する対話の堅牢性を向上します。
TWIZ は、創造的なクッキング、音声によるビデオ ナビゲーション、複雑な手動タスクについて対話するために訓練された大規模言語モデルである堅牢な TWIZ-LLM などのいくつかの革新的な機能を備えた、幅広いタスクをサポートできるアシスタントです。
ユーザーから提供された評価とフィードバックを考慮すると、TWIZ ボットは効果的で堅牢なシステムであり、複数のマルチモーダルな刺激を提供しながらタスクを通じてユーザーをガイドできることがわかりました。

要約(オリジナル)

In this report, we describe the vision, challenges, and scientific contributions of the Task Wizard team, TWIZ, in the Alexa Prize TaskBot Challenge 2022. Our vision, is to build TWIZ bot as an helpful, multimodal, knowledgeable, and engaging assistant that can guide users towards the successful completion of complex manual tasks. To achieve this, we focus our efforts on three main research questions: (1) Humanly-Shaped Conversations, by providing information in a knowledgeable way; (2) Multimodal Stimulus, making use of various modalities including voice, images, and videos; and (3) Zero-shot Conversational Flows, to improve the robustness of the interaction to unseen scenarios. TWIZ is an assistant capable of supporting a wide range of tasks, with several innovative features such as creative cooking, video navigation through voice, and the robust TWIZ-LLM, a Large Language Model trained for dialoguing about complex manual tasks. Given ratings and feedback provided by users, we observed that TWIZ bot is an effective and robust system, capable of guiding users through tasks while providing several multimodal stimuli.

arxiv情報

著者 Rafael Ferreira,Diogo Tavares,Diogo Silva,Rodrigo Valério,João Bordalo,Inês Simões,Vasco Ramos,David Semedo,João Magalhães
発行日 2024-01-22 14:41:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク