ReactGenie: A Development Framework for Complex Multimodal Interactions Using Large Language Models

要約

音声とタッチの対話を組み合わせることで、マルチモーダル インターフェイスは、どちらかのモダリティ単独の効率を超えることができます。
従来のマルチモーダル フレームワークでは、ユーザーのマルチモーダル コマンドにアクション/関数呼び出しの指数関数的な組み合わせが含まれる場合、豊富なマルチモーダル コマンドをサポートするには、開発者の労力がかかります。
このペーパーでは、マルチモーダル入力を計算モデルからより適切に分離して、開発者が効率的で有能なマルチモーダル インターフェイスを簡単に作成できるようにするプログラミング フレームワークである ReactGenie について説明します。
ReactGenie は、大規模言語モデルに基づくニューラル セマンティック パーサーを使用して、マルチモーダル ユーザー コマンドを NLPL (自然言語プログラミング言語) に変換します。NLPL (自然言語プログラミング言語) は、私たちが作成したプログラミング言語です。
ReactGenie ランタイムは、解析された NLPL を解釈し、計算モデル内でプリミティブを構成して、複雑なユーザー コマンドを実装します。
その結果、ReactGenie は、マルチモーダル アプリのエンドユーザーに簡単な実装と前例のない豊富なコマンドを提供します。
私たちの評価では、12 人の開発者が平均 2.5 時間未満で重要な ReactGenie アプリケーションを学習して構築できることがわかりました。
さらに、従来の GUI と比較して、エンドユーザーは ReactGenie アプリを使用することでタスクの負荷を軽減し、より速くタスクを完了できます。

要約(オリジナル)

By combining voice and touch interactions, multimodal interfaces can surpass the efficiency of either modality alone. Traditional multimodal frameworks require laborious developer work to support rich multimodal commands where the user’s multimodal command involves possibly exponential combinations of actions/function invocations. This paper presents ReactGenie, a programming framework that better separates multimodal input from the computational model to enable developers to create efficient and capable multimodal interfaces with ease. ReactGenie translates multimodal user commands into NLPL (Natural Language Programming Language), a programming language we created, using a neural semantic parser based on large-language models. The ReactGenie runtime interprets the parsed NLPL and composes primitives in the computational model to implement complex user commands. As a result, ReactGenie allows easy implementation and unprecedented richness in commands for end-users of multimodal apps. Our evaluation showed that 12 developers can learn and build a nontrivial ReactGenie application in under 2.5 hours on average. In addition, compared with a traditional GUI, end-users can complete tasks faster and with less task load using ReactGenie apps.

arxiv情報

著者 Jackie Junrui Yang,Yingtian Shi,Yuhan Zhang,Karina Li,Daniel Wan Rosli,Anisha Jain,Shuning Zhang,Tianshi Li,James A. Landay,Monica S. Lam
発行日 2024-05-02 08:28:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク