TWIZ: The Wizard of Multimodal Conversational-Stimulus

要約

本報告書では、アレクサ賞タスクボットチャレンジ2022におけるタスクウィザードチームTWIZのビジョン、課題、科学的貢献について述べる。我々のビジョンは、TWIZボットを、複雑な手作業を成功させるためにユーザーを導くことができる、親切で、マルチモーダルで、知識が豊富で、魅力的なアシスタントとして構築することです。これを達成するために、我々は3つの主要な研究課題に焦点を当てています:(1)知識豊富な方法で情報を提供することにより、人間的な形の会話、(2)音声、画像、およびビデオを含む様々なモダリティを利用するマルチモーダル刺激、および(3)未知のシナリオに対する対話のロバスト性を向上させるためのゼロショット会話フロー。TWIZは、創造的な料理、音声によるビデオナビゲーション、複雑な手作業に関する対話のために訓練された大規模言語モデルである堅牢なTWIZ-LLMなどのいくつかの革新的な機能を備えた、幅広いタスクをサポートすることができるアシスタントです。ユーザーからの評価やフィードバックを考慮すると、TWIZボットは効果的で堅牢なシステムであり、複数のマルチモーダルな刺激を提供しながらユーザーをタスクに誘導できることが確認された。

要約(オリジナル)

In this report, we describe the vision, challenges, and scientific contributions of the Task Wizard team, TWIZ, in the Alexa Prize TaskBot Challenge 2022. Our vision, is to build TWIZ bot as an helpful, multimodal, knowledgeable, and engaging assistant that can guide users towards the successful completion of complex manual tasks. To achieve this, we focus our efforts on three main research questions: (1) Humanly-Shaped Conversations, by providing information in a knowledgeable way; (2) Multimodal Stimulus, making use of various modalities including voice, images, and videos; and (3) Zero-shot Conversational Flows, to improve the robustness of the interaction to unseen scenarios. TWIZ is an assistant capable of supporting a wide range of tasks, with several innovative features such as creative cooking, video navigation through voice, and the robust TWIZ-LLM, a Large Language Model trained for dialoguing about complex manual tasks. Given ratings and feedback provided by users, we observed that TWIZ bot is an effective and robust system, capable of guiding users through tasks while providing several multimodal stimuli.

arxiv情報

著者 Rafael Ferreira,Diogo Tavares,Diogo Silva,Rodrigo Valério,João Bordalo,Inês Simões,Vasco Ramos,David Semedo,João Magalhães
発行日 2023-10-03 14:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク