A Language-based solution to enable Metaverse Retrieval

要約

最近、メタバースはますます魅力的になってきており、何百万ものユーザーが利用可能な多くの仮想世界にアクセスしています。
しかし、ユーザーはどのようにして現在の興味に最も適したメタバースを見つけられるのでしょうか?
これまでのところ、検索プロセスは主に口コミやテクノロジー指向の Web サイト上の広告によって行われています。
しかし、他のマルチメディア形式 (動画の場合は YouTube など) で利用できるものと同様の検索エンジンが不足しているため、その限界が見えてきています。利用可能な方法を使用して、特定の興味に基づいてメタバースを見つけるのは面倒な場合が多いためです。
強力な広告のないユーザー作成のものを見つけるのは困難です。
この制限に対処するために、ユーザーが見つけたいメタバースのコンテンツを自然に記述する言語を使用することを提案します。
次に、従来の 3D シーンとは異なり、メタバース シナリオには、ユーザー クエリに対するシナリオ自体の関連性に影響を与える 1 つ以上のタイプのマルチメディアが含まれることが多いため、より複雑なデータ形式を表すことを強調します。
したがって、この作業では、テキストからメタバースへの取得と呼ばれる新しいタスクを作成します。このタスクは、テキスト データとのクロスモーダル関係も考慮しながら、これらの側面をモデル化することを目的としています。
私たちはこの問題に最初に取り組んだため、33,000 のメタバースのデータセットも収集しました。各メタバースは、マルチメディア コンテンツで強化された 3D シーンで構成されています。
最後に、対照学習に基づいた深層学習フレームワークを設計して実装し、徹底的な実験セットアップを実現します。

要約(オリジナル)

Recently, the Metaverse is becoming increasingly attractive, with millions of users accessing the many available virtual worlds. However, how do users find the one Metaverse which best fits their current interests? So far, the search process is mostly done by word of mouth, or by advertisement on technology-oriented websites. However, the lack of search engines similar to those available for other multimedia formats (e.g., YouTube for videos) is showing its limitations, since it is often cumbersome to find a Metaverse based on some specific interests using the available methods, while also making it difficult to discover user-created ones which lack strong advertisement. To address this limitation, we propose to use language to naturally describe the desired contents of the Metaverse a user wishes to find. Second, we highlight that, differently from more conventional 3D scenes, Metaverse scenarios represent a more complex data format since they often contain one or more types of multimedia which influence the relevance of the scenario itself to a user query. Therefore, in this work, we create a novel task, called Text-to-Metaverse retrieval, which aims at modeling these aspects while also taking the cross-modal relations with the textual data into account. Since we are the first ones to tackle this problem, we also collect a dataset of 33000 Metaverses, each of which consists of a 3D scene enriched with multimedia content. Finally, we design and implement a deep learning framework based on contrastive learning, resulting in a thorough experimental setup.

arxiv情報

著者 Ali Abdari,Alex Falcon,Giuseppe Serra
発行日 2023-12-22 12:08:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク