LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models

要約

GPT-4のような大規模言語モデル(LLM)と拡張現実感(XR)技術の統合は、例えば音声入力から3Dシーンを生成しアニメーション化するなど、自然言語を通して人間と対話する真に没入的なXR環境を構築する可能性を提供する。しかし、XR環境は複雑であるため、膨大なXRアーティファクトから関連するコンテキスト・データやシーン/オブジェクト・パラメータを正確に抽出することは困難です。これは、従量課金モデルによるコストの増加だけでなく、生成エラーのレベルの上昇にもつながります。さらに、スクリプト生成のコーディングに焦点を当てた既存のアプローチは、生成エラーが発生しやすく、欠陥のあるスクリプトや無効なスクリプト、アプリケーションのクラッシュ、ひいてはユーザーエクスペリエンスの低下を招くことが多い。これらの課題を克服するために、LLMによって生成されたJSONデータを使用してインタラクティブなXR世界を作成する新しいフレームワークであるLLMERを紹介します。コーディングスクリプト生成に焦点を当てた先行アプローチとは異なり、LLMERは自然言語入力をJSONデータに変換し、アプリケーションクラッシュの可能性と処理待ち時間を大幅に削減します。LLMERは、ユーザーの要求に適合した必要な文脈情報のみを供給する多段階戦略を採用しており、様々なXRタスク用に設計された複数のモジュールを備えている。我々の予備的なユーザー調査により、提案システムの有効性が明らかになり、最先端のアプローチと比較して、消費されたトークンが80%以上削減され、タスク完了時間が約60%削減された。ユーザーのフィードバックの分析により、さらなる最適化のための一連の方向性も明らかになった。

要約(オリジナル)

The integration of Large Language Models (LLMs) like GPT-4 with Extended Reality (XR) technologies offers the potential to build truly immersive XR environments that interact with human users through natural language, e.g., generating and animating 3D scenes from audio inputs. However, the complexity of XR environments makes it difficult to accurately extract relevant contextual data and scene/object parameters from an overwhelming volume of XR artifacts. It leads to not only increased costs with pay-per-use models, but also elevated levels of generation errors. Moreover, existing approaches focusing on coding script generation are often prone to generation errors, resulting in flawed or invalid scripts, application crashes, and ultimately a degraded user experience. To overcome these challenges, we introduce LLMER, a novel framework that creates interactive XR worlds using JSON data generated by LLMs. Unlike prior approaches focusing on coding script generation, LLMER translates natural language inputs into JSON data, significantly reducing the likelihood of application crashes and processing latency. It employs a multi-stage strategy to supply only the essential contextual information adapted to the user’s request and features multiple modules designed for various XR tasks. Our preliminary user study reveals the effectiveness of the proposed system, with over 80% reduction in consumed tokens and around 60% reduction in task completion time compared to state-of-the-art approaches. The analysis of users’ feedback also illuminates a series of directions for further optimization.

arxiv情報

著者 Jiangong Chen,Xiaoyi Wu,Tian Lan,Bin Li
発行日 2025-02-04 16:08:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.MM パーマリンク