要約
コンピュータグラフィックス、機械学習、センサー技術における最近の発展により、技能訓練からエンターテインメントまで、日常生活における拡張現実感(XR)セットアップの多くの機会が可能になった。大企業が手頃なコンシューマーグレードのヘッドマウントディスプレイ(HMD)を提供することで、XRは普及し、HMDはスマートフォンやタブレットのようなパーソナルデバイスとして発展していくだろう。しかし、XRにインテリジェントな空間と自然なインタラクションを持たせることは、ユーザーが仮想空間や拡張空間でのエンゲージメントを高めるために、技術の進歩と同じくらい重要である。この目的のために、大規模言語モデル(LLM)を搭載したノンプレイヤーキャラクター(NPC)は、STT(Speech-to-Text)やTTS(Text-to-Speech)モデルを備え、XRにおいてより自然な会話型ユーザーインターフェース(CUI)を促進するために、従来のNPCや事前にスクリプト化されたNPCよりも大きな利点をもたらします。本論文では、オープンソースで、カスタマイズ可能で、拡張可能で、プライバシーに配慮したUnityパッケージであるCUIfyをコミュニティに提供し、広く使用されているLLM、STT、TTSモデルを使って、音声ベースのNPCとユーザとの対話を容易にします。また、本パッケージは、環境ごとに複数のLLMを搭載したNPCをサポートし、ストリーミングにより異なる計算モデル間の待ち時間を最小化することで、ユーザとNPC間のユーザビリティの高いインタラクションを実現します。ソースコードは以下のリポジトリで公開しています: https://gitlab.lrz.de/hctl/cuify
要約(オリジナル)
Recent developments in computer graphics, machine learning, and sensor technologies enable numerous opportunities for extended reality (XR) setups for everyday life, from skills training to entertainment. With large corporations offering affordable consumer-grade head-mounted displays (HMDs), XR will likely become pervasive, and HMDs will develop as personal devices like smartphones and tablets. However, having intelligent spaces and naturalistic interactions in XR is as important as technological advances so that users grow their engagement in virtual and augmented spaces. To this end, large language model (LLM)–powered non-player characters (NPCs) with speech-to-text (STT) and text-to-speech (TTS) models bring significant advantages over conventional or pre-scripted NPCs for facilitating more natural conversational user interfaces (CUIs) in XR. This paper provides the community with an open-source, customizable, extendable, and privacy-aware Unity package, CUIfy, that facilitates speech-based NPC-user interaction with widely used LLMs, STT, and TTS models. Our package also supports multiple LLM-powered NPCs per environment and minimizes latency between different computational models through streaming to achieve usable interactions between users and NPCs. We publish our source code in the following repository: https://gitlab.lrz.de/hctl/cuify
arxiv情報
著者 | Kadir Burak Buldu,Süleyman Özdel,Ka Hei Carrie Lau,Mengdi Wang,Daniel Saad,Sofie Schönborn,Auxane Boch,Enkelejda Kasneci,Efe Bozkir |
発行日 | 2025-03-03 13:41:33+00:00 |
arxivサイト | arxiv_id(pdf) |