Generation and Detection of Sign Language Deepfakes – A Linguistic and Visual Analysis

要約

この研究では、上半身世代、特に聴覚障害者とハードの聴覚(DHOH)コミュニティの手話のためのディープファーテクノロジーの肯定的な応用を探ります。
手話の複雑さと専門家の希少性を考えると、生成されたビデオは正確さのために手話の専門家によって吟味されます。
コンピュータービジョンと自然言語処理モデルを使用して、その技術的および視覚的信頼性を評価して、信頼できるディープファークデータセットを構築します。
見られた個人と目に見えない個人の両方をフィーチャーした1200を超えるビデオで構成されるデータセットは、脆弱な個人をターゲットにしたディープファークビデオを検出するためにも使用されます。
専門家の注釈は、生成されたビデオが実際の手話コンテンツに匹敵することを確認しています。
テキストの類似性スコアと通訳評価を使用した言語分析は、生成されたビデオの解釈が本物の手話と少なくとも90%類似していることを示しています。
視覚分析は、新しい主題であっても、説得力のある現実的なディープフェイクを生み出すことができることを示しています。
ポーズ/スタイルの転送モデルを使用して、細部に細心の注意を払い、手の動きが正確であり、運転ビデオと一致するようにします。
また、機械学習アルゴリズムを適用して、このデータセットでディープフェイク検出のベースラインを確立し、不正な手話ビデオの検出に貢献しています。

要約(オリジナル)

This research explores the positive application of deepfake technology for upper body generation, specifically sign language for the Deaf and Hard of Hearing (DHoH) community. Given the complexity of sign language and the scarcity of experts, the generated videos are vetted by a sign language expert for accuracy. We construct a reliable deepfake dataset, evaluating its technical and visual credibility using computer vision and natural language processing models. The dataset, consisting of over 1200 videos featuring both seen and unseen individuals, is also used to detect deepfake videos targeting vulnerable individuals. Expert annotations confirm that the generated videos are comparable to real sign language content. Linguistic analysis, using textual similarity scores and interpreter evaluations, shows that the interpretation of generated videos is at least 90% similar to authentic sign language. Visual analysis demonstrates that convincingly realistic deepfakes can be produced, even for new subjects. Using a pose/style transfer model, we pay close attention to detail, ensuring hand movements are accurate and align with the driving video. We also apply machine learning algorithms to establish a baseline for deepfake detection on this dataset, contributing to the detection of fraudulent sign language videos.

arxiv情報

著者 Shahzeb Naeem,Muhammad Riyyan Khan,Usman Tariq,Abhinav Dhall,Carlos Ivan Colon,Hasan Al-Nashash
発行日 2025-02-17 18:22:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Generation and Detection of Sign Language Deepfakes – A Linguistic and Visual Analysis はコメントを受け付けていません

NaVILA: Legged Robot Vision-Language-Action Model for Navigation

要約

このペーパーでは、脚のあるロボットでのビジョンと言語のナビゲーションの問題を解決することを提案します。これは、人間が指揮する柔軟な方法を提供するだけでなく、ロボットがより挑戦的で乱雑なシーンをナビゲートできるようにすることもできます。
ただし、人間の言語の指示を低レベルの脚の関節アクションにずっと翻訳することは自明ではありません。
Navilaを提案します。Vavilaは、移動スキルを備えたビジョン言語アクションモデル(VLA)を統合する2レベルのフレームワークです。
VLAからの低レベルのアクションを直接予測する代わりに、Navilaは最初に言語の形で空間情報を使用して中レベルのアクションを生成します(例:「75cmの前進」)。

Navilaは、既存のベンチマークで以前のアプローチを大幅に改善します。
Isaaclabを使用した新しく開発されたベンチマークでは、同じ利点が実証されており、よりリアルなシーン、低レベルのコントロール、現実世界のロボット実験を備えています。
https://navila-bot.github.io/でより多くの結果を示します

要約(オリジナル)

This paper proposes to solve the problem of Vision-and-Language Navigation with legged robots, which not only provides a flexible way for humans to command but also allows the robot to navigate through more challenging and cluttered scenes. However, it is non-trivial to translate human language instructions all the way to low-level leg joint actions. We propose NaVILA, a 2-level framework that unifies a Vision-Language-Action model (VLA) with locomotion skills. Instead of directly predicting low-level actions from VLA, NaVILA first generates mid-level actions with spatial information in the form of language, (e.g., ‘moving forward 75cm’), which serves as an input for a visual locomotion RL policy for execution. NaVILA substantially improves previous approaches on existing benchmarks. The same advantages are demonstrated in our newly developed benchmarks with IsaacLab, featuring more realistic scenes, low-level controls, and real-world robot experiments. We show more results at https://navila-bot.github.io/

arxiv情報

著者 An-Chieh Cheng,Yandong Ji,Zhaojing Yang,Zaitian Gongye,Xueyan Zou,Jan Kautz,Erdem Bıyık,Hongxu Yin,Sifei Liu,Xiaolong Wang
発行日 2025-02-17 18:27:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | NaVILA: Legged Robot Vision-Language-Action Model for Navigation はコメントを受け付けていません

Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

要約

マルチモーダル大手言語モデル(MLLMS)の急速な進行により、さまざまなマルチモーダルベンチマークで優れた性能が実証されています。
ただし、トレーニング中のデータ汚染の問題は、パフォーマンス評価と比較に課題を生み出します。
大規模な言語モデル(LLM)でのモデルの汚染を検出するための多くの方法が存在しますが、さまざまなモダリティと複数のトレーニングフェーズのため、MLLMの効果が低くなります。
この研究では、MLLMS向けに設計されたマルチモーダルデータ汚染検出フレームワークMM-検出フレームワークを紹介します。
私たちの実験結果は、MM検出がさまざまな程度の汚染を特定するのに非常に効果的で敏感であり、マルチモーダルベンチマークトレーニングセットの漏れにより大幅なパフォーマンスの改善を強調できることを示しています。
さらに、汚染がMLLMSまたはマルチモーダルトレーニングフェーズで使用される基本LLMから発生するかどうかを調査し、汚染が導入される段階への新しい洞察を提供します。

要約(オリジナル)

The rapid progression of multimodal large language models (MLLMs) has demonstrated superior performance on various multimodal benchmarks. However, the issue of data contamination during training creates challenges in performance evaluation and comparison. While numerous methods exist for detecting models’ contamination in large language models (LLMs), they are less effective for MLLMs due to their various modalities and multiple training phases. In this study, we introduce a multimodal data contamination detection framework, MM-Detect, designed for MLLMs. Our experimental results indicate that MM-Detect is quite effective and sensitive in identifying varying degrees of contamination, and can highlight significant performance improvements due to the leakage of multimodal benchmark training sets. Furthermore, we explore whether the contamination originates from the base LLMs used by MLLMs or the multimodal training phase, providing new insights into the stages at which contamination may be introduced.

arxiv情報

著者 Dingjie Song,Sicheng Lai,Shunian Chen,Lichao Sun,Benyou Wang
発行日 2025-02-17 18:29:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination はコメントを受け付けていません

A Monocular Event-Camera Motion Capture System

要約

モーションキャプチャシステムは、オブジェクトの根本的なポーズを記録するための研究における広範なツールです。
商用システムは、オブジェクトに取り付けられた反射マーカーを使用し、複数のカメラビューからオブジェクトのポーズを三角測量します。
その結果、オブジェクトは複数のカメラに表示される必要があります。これにより、このようなマルチビューモーションキャプチャシステムは、狭い閉じ込められたスペース(船のバラストタンクなど)の展開に適していません。
このテクニカルレポートでは、この制限を克服し、狭いスペースに理想的な単眼イベントカメラモーションキャプチャシステムについて説明します。
パッシブマーカーの代わりに、各マーカーを点滅周波数から一意に識別できるように、アクティブで点滅するLEDマーカーに依存します。
マーカーは、追跡オブジェクトの既知の場所に配置されます。
次に、PNP(Perspective-N-Points)問題を解決して、オブジェクトの位置と方向を取得します。
開発されたシステムには、ミリメートルの精度、ミリ秒のレイテンシがあり、その状態の推定値を使用して小さくてアジャイルな四角体を飛行できることを示しています。

要約(オリジナル)

Motion capture systems are a widespread tool in research to record ground-truth poses of objects. Commercial systems use reflective markers attached to the object and then triangulate pose of the object from multiple camera views. Consequently, the object must be visible to multiple cameras which makes such multi-view motion capture systems unsuited for deployments in narrow, confined spaces (e.g. ballast tanks of ships). In this technical report we describe a monocular event-camera motion capture system which overcomes this limitation and is ideally suited for narrow spaces. Instead of passive markers it relies on active, blinking LED markers such that each marker can be uniquely identified from the blinking frequency. The markers are placed at known locations on the tracking object. We then solve the PnP (perspective-n-points) problem to obtain the position and orientation of the object. The developed system has millimeter accuracy, millisecond latency and we demonstrate that its state estimate can be used to fly a small, agile quadrotor.

arxiv情報

著者 Leonard Bauersfeld,Davide Scaramuzza
発行日 2025-02-17 18:38:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | A Monocular Event-Camera Motion Capture System はコメントを受け付けていません

PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection

要約

ビジュアルインストラクションチューニングにより、事前に訓練されたマルチモーダル大手言語モデル(MLLM)を改良して、実際のタスクパフォ​​ーマンスを向上させます。
ただし、視覚命令データセットの急速な拡大により、重要なデータ冗長性が導入され、過度の計算コストが発生します。
既存のデータ選択方法は、主にプロキシモデルまたは損失ベースのメトリックに依存しており、どちらもモデル推論とバックプロパゲーションの必要性のためにかなりの計算オーバーヘッドを課します。
この課題に対処するために、効率的なマルチモーダルデータ選択のための新しいトレーニングなしのアプローチであるPrismを提案します。
既存の方法とは異なり、Prismはプロキシモデル、ウォームアップ前orain、勾配ベースの最適化への依存を排除​​します。
代わりに、ピアソン相関分析を活用してMLLMの固有の視覚エンコード特性を定量化し、タスク固有の相関スコアを計算して高価値インスタンスを識別します。
これは、データ効率の高い選択だけでなく、元のパフォーマンスを維持します。
複数のMLLMにわたる経験的評価は、プリズムが視覚指導の調整とデータ選択に必要な全体の時間を従来の方法の30%に短縮することを示しています。
最終的なパフォーマンスで。

要約(オリジナル)

Visual instruction tuning refines pre-trained Multimodal Large Language Models (MLLMs) to enhance their real-world task performance. However, the rapid expansion of visual instruction datasets introduces significant data redundancy, leading to excessive computational costs. Existing data selection methods predominantly rely on proxy models or loss-based metrics, both of which impose substantial computational overheads due to the necessity of model inference and backpropagation. To address this challenge, we propose PRISM, a novel training-free approach for efficient multimodal data selection. Unlike existing methods, PRISM eliminates the reliance on proxy models, warm-up pretraining, and gradient-based optimization. Instead, it leverages Pearson correlation analysis to quantify the intrinsic visual encoding properties of MLLMs, computing a task-specific correlation score to identify high-value instances. This not only enbles data-efficient selection,but maintains the original performance. Empirical evaluations across multiple MLLMs demonstrate that PRISM reduces the overall time required for visual instruction tuning and data selection to just 30% of conventional methods, while surpassing fully fine-tuned models across eight multimodal and three language understanding benchmarks, achieving a 101.7% relative improvement in final performance.

arxiv情報

著者 Jinhe Bi,Yifan Wang,Danqi Yan,Xun Xiao,Artur Hecker,Volker Tresp,Yunpu Ma
発行日 2025-02-17 18:43:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection はコメントを受け付けていません

MagicArticulate: Make Your 3D Models Articulation-Ready

要約

3Dコンテンツ作成の爆発的な成長により、静的3Dモデルを自動的に現実的なアニメーションをサポートするARTICULATION-READYバージョンに変換するという需要が増加しています。
従来のアプローチは、時間がかかり、労働集約的な手動注釈に大きく依存しています。
さらに、大規模なベンチマークの欠如は、学習ベースのソリューションの開発を妨げています。
この作業では、静的3Dモデルをアーティキュレーション対応資産に自動的に変換する効果的なフレームワークであるMagicArticulateを提示します。
私たちの重要な貢献は3つあります。
まず、Objaverse-XLから慎重にキュレーションされた高品質のアーティキュレーション注釈を備えた33Kを超える3Dモデルを含む大規模なベンチマークであるArticulation-XLを紹介します。
第二に、タスクをシーケンスモデリングの問題として定式化する新しいスケルトン生成方法を提案し、自動回帰トランスを活用して、スケルトン内のさまざまな数の骨またはジョイントと、異なる3Dモデルにわたって固有の依存関係を自然に処理します。
第三に、頂点とジョイントの間に体積測地線距離前の距離を組み込んだ機能的拡散プロセスを使用して、スキニングウェイトを予測します。
広範な実験は、Magicarticulationが多様なオブジェクトカテゴリ全体で既存の方法を大幅に上回ることを示しており、現実的なアニメーションを可能にする高品質の明確化を実現しています。
プロジェクトページ:https://chaoyuesong.github.io/magicarticulate。

要約(オリジナル)

With the explosive growth of 3D content creation, there is an increasing demand for automatically converting static 3D models into articulation-ready versions that support realistic animation. Traditional approaches rely heavily on manual annotation, which is both time-consuming and labor-intensive. Moreover, the lack of large-scale benchmarks has hindered the development of learning-based solutions. In this work, we present MagicArticulate, an effective framework that automatically transforms static 3D models into articulation-ready assets. Our key contributions are threefold. First, we introduce Articulation-XL, a large-scale benchmark containing over 33k 3D models with high-quality articulation annotations, carefully curated from Objaverse-XL. Second, we propose a novel skeleton generation method that formulates the task as a sequence modeling problem, leveraging an auto-regressive transformer to naturally handle varying numbers of bones or joints within skeletons and their inherent dependencies across different 3D models. Third, we predict skinning weights using a functional diffusion process that incorporates volumetric geodesic distance priors between vertices and joints. Extensive experiments demonstrate that MagicArticulate significantly outperforms existing methods across diverse object categories, achieving high-quality articulation that enables realistic animation. Project page: https://chaoyuesong.github.io/MagicArticulate.

arxiv情報

著者 Chaoyue Song,Jianfeng Zhang,Xiu Li,Fan Yang,Yiwen Chen,Zhongcong Xu,Jun Hao Liew,Xiaoyang Guo,Fayao Liu,Jiashi Feng,Guosheng Lin
発行日 2025-02-17 18:53:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | MagicArticulate: Make Your 3D Models Articulation-Ready はコメントを受け付けていません

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views

要約

FLAREは、高品質のカメラのポーズと3Dジオメトリを推測するように設計されたフィードフォワードモデルであるFlareを提示します。

私たちのソリューションは、カメラポーズが重要なブリッジとして機能するカスケード学習パラダイムを特徴としており、3D構造を2D画像プレーンにマッピングする上でその重要な役割を認識しています。
具体的には、フレアはカメラのポーズ推定から始まり、その結果は、幾何学の再構築と新規ビュー統合の目的を通じて最適化された幾何学的構造と外観のその後の学習を条件としています。
トレーニング用の大規模なパブリックデータセットを利用して、私たちの方法は、推論効率を維持しながら、ポーズ推定、ジオメトリ再構成、新しいビュー合成のタスクで最先端のパフォーマンスを提供します(つまり、0.5秒未満)。
プロジェクトページとコードは、https://zhanghe3z.github.io/flare/にあります。

要約(オリジナル)

We present FLARE, a feed-forward model designed to infer high-quality camera poses and 3D geometry from uncalibrated sparse-view images (i.e., as few as 2-8 inputs), which is a challenging yet practical setting in real-world applications. Our solution features a cascaded learning paradigm with camera pose serving as the critical bridge, recognizing its essential role in mapping 3D structures onto 2D image planes. Concretely, FLARE starts with camera pose estimation, whose results condition the subsequent learning of geometric structure and appearance, optimized through the objectives of geometry reconstruction and novel-view synthesis. Utilizing large-scale public datasets for training, our method delivers state-of-the-art performance in the tasks of pose estimation, geometry reconstruction, and novel view synthesis, while maintaining the inference efficiency (i.e., less than 0.5 seconds). The project page and code can be found at: https://zhanghe3z.github.io/FLARE/

arxiv情報

著者 Shangzhan Zhang,Jianyuan Wang,Yinghao Xu,Nan Xue,Christian Rupprecht,Xiaowei Zhou,Yujun Shen,Gordon Wetzstein
発行日 2025-02-17 18:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views はコメントを受け付けていません

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

要約

サンプリングの軌跡を最適化することにより、下流のアライメントを強化する微調整アプローチである拡散シャープニングを提案します。
既存のRLベースの微調整方法は、単一のトレーニングタイムステップに焦点を当て、軌道レベルのアラインメントを無視しますが、最近のサンプリング軌道最適化方法は、重要な推論NFEコストを受けます。
拡散シャプニングは、パス積分フレームワークを使用してトレーニング中に最適な軌跡を選択し、報酬フィードバックを活用し、推論コストを償却することにより、これを克服します。
私たちの方法は、追加のNFEを必要とせずに、収束を速くし、最良の推論効率を備えた優れたトレーニング効率を示しています。
広範な実験では、拡散シャプニングがRLベースの微調整方法(拡散-DPOなど)とサンプリング軌道最適化方法(例:推論スケーリング)が、テキストアライメント、構成機能、人間の好みを含む多様なメトリック全体にわたって優れていることが示されています。
将来の拡散モデルの微調整のための効率的なソリューション。
コード:https://github.com/gen-verse/diffusion-sharpening

要約(オリジナル)

We propose Diffusion-Sharpening, a fine-tuning approach that enhances downstream alignment by optimizing sampling trajectories. Existing RL-based fine-tuning methods focus on single training timesteps and neglect trajectory-level alignment, while recent sampling trajectory optimization methods incur significant inference NFE costs. Diffusion-Sharpening overcomes this by using a path integral framework to select optimal trajectories during training, leveraging reward feedback, and amortizing inference costs. Our method demonstrates superior training efficiency with faster convergence, and best inference efficiency without requiring additional NFEs. Extensive experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods (e.g., Inference Scaling) across diverse metrics including text alignment, compositional capabilities, and human preferences, offering a scalable and efficient solution for future diffusion model fine-tuning. Code: https://github.com/Gen-Verse/Diffusion-Sharpening

arxiv情報

著者 Ye Tian,Ling Yang,Xinchen Zhang,Yunhai Tong,Mengdi Wang,Bin Cui
発行日 2025-02-17 18:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening はコメントを受け付けていません

HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation

要約

自己回帰パラダイムの顕著な成功により、Multimodal大言語モデル(MLLMS)で大きな進歩が生じ、Show-O、Transfusion、EMU3などの強力なモデルが統一された画像の理解と生成の顕著な進歩を達成しています。
初めて、一般的な現象を明らかにします。MLLMの理解能力は、通常、生成能力よりも強く、2つの間に大きなギャップがあります。
この洞察に基づいて、MLLMSの理解と生成の間のギャップをシームレスに埋めるように設計されたシンプルでありながら一般的なフレームワークであるHermesflowを提案します。
具体的には、理解と生成の両方の相同選好データをキュレートするための入力として相同データを取得します。
ペア-DPOおよびセルフプレイの反復最適化により、HermesFlowは相同選好データを使用してマルチモーダルの理解と生成を効果的に整列させます。
広範な実験は、特にマルチモーダルの理解と生成の間のギャップを狭める際に、以前の方法よりもアプローチの重要な優位性を示しています。
これらの調査結果は、次世代マルチモーダルファンデーションモデルの一般的なアライメントフレームワークとしてのHermesflowの可能性を強調しています。
コード:https://github.com/gen-verse/hermesflow

要約(オリジナル)

The remarkable success of the autoregressive paradigm has made significant advancement in Multimodal Large Language Models (MLLMs), with powerful models like Show-o, Transfusion and Emu3 achieving notable progress in unified image understanding and generation. For the first time, we uncover a common phenomenon: the understanding capabilities of MLLMs are typically stronger than their generative capabilities, with a significant gap between the two. Building on this insight, we propose HermesFlow, a simple yet general framework designed to seamlessly bridge the gap between understanding and generation in MLLMs. Specifically, we take the homologous data as input to curate homologous preference data of both understanding and generation. Through Pair-DPO and self-play iterative optimization, HermesFlow effectively aligns multimodal understanding and generation using homologous preference data. Extensive experiments demonstrate the significant superiority of our approach over prior methods, particularly in narrowing the gap between multimodal understanding and generation. These findings highlight the potential of HermesFlow as a general alignment framework for next-generation multimodal foundation models. Code: https://github.com/Gen-Verse/HermesFlow

arxiv情報

著者 Ling Yang,Xinchen Zhang,Ye Tian,Chenming Shang,Minghao Xu,Wentao Zhang,Bin Cui
発行日 2025-02-17 18:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation はコメントを受け付けていません

VoLUT: Efficient Volumetric streaming enhanced by LUT-based super-resolution

要約

3Dボリュームビデオは、没入型の体験を提供し、デジタルメディアで牽引力を獲得しています。
人気の高まりにもかかわらず、ボリュームビデオコンテンツのストリーミングは、データ帯域幅の要件が高いため、大きな課題をもたらします。
帯域幅の問題を軽減するための自然なアプローチは、送信前にコンテンツをダウンサンプリングすることにより、体積ビデオのデータレートを下げることです。
その後、ビデオは、スーパー解像度(SR)アルゴリズムを使用してレシーバーの端でアップサンプリングして、高解像度の詳細を再構築できます。
2Dビデオコンテンツのために、超解像度の技術は広範囲に調査され、高度になっていますが、ボリュームビデオに合わせて調整されたSRアルゴリズムの作業は限られています。
このギャップと効率的なボリュームビデオストリーミングの必要性の高まりに対処するために、ボリュームコンテンツ専用に設計された新しいSRアルゴリズムを備えたVolutを開発しました。
私たちのアルゴリズムは、ルックアップテーブル(LUTS)の力を一意に活用して、低解像度の体積データの効率的かつ正確なアップスケーリングを促進します。
LUTSを使用すると、アルゴリズムが事前に計算された高解像度値を迅速に参照できるため、アップスケーリングに必要な計算の複雑さと時間を大幅に削減できます。
さらに、適応型ビデオビットレートアルゴリズム(ABR)を適用して、ネットワーク条件に応じたダウンサンプリングレートを動的に決定し、選択したビデオレートをレシーバーにストリーミングします。
関連する作業と比較して、Volutは、ラインレートでコモディティモバイルデバイスで高品質の3D SRを有効にする最初のものです。
私たちの評価によると、Volutは帯域幅の使用量を70%削減し、QOEを36.7%増加させ、ボリュームビデオストリーミングで36.7%増加し、品質の妥協なしで3D SRスピードアップを達成できます。

要約(オリジナル)

3D volumetric video provides immersive experience and is gaining traction in digital media. Despite its rising popularity, the streaming of volumetric video content poses significant challenges due to the high data bandwidth requirement. A natural approach to mitigate the bandwidth issue is to reduce the volumetric video’s data rate by downsampling the content prior to transmission. The video can then be upsampled at the receiver’s end using a super-resolution (SR) algorithm to reconstruct the high-resolution details. While super-resolution techniques have been extensively explored and advanced for 2D video content, there is limited work on SR algorithms tailored for volumetric videos. To address this gap and the growing need for efficient volumetric video streaming, we have developed VoLUT with a new SR algorithm specifically designed for volumetric content. Our algorithm uniquely harnesses the power of lookup tables (LUTs) to facilitate the efficient and accurate upscaling of low-resolution volumetric data. The use of LUTs enables our algorithm to quickly reference precomputed high-resolution values, thereby significantly reducing the computational complexity and time required for upscaling. We further apply adaptive video bit rate algorithm (ABR) to dynamically determine the downsampling rate according to the network condition and stream the selected video rate to the receiver. Compared to related work, VoLUT is the first to enable high-quality 3D SR on commodity mobile devices at line-rate. Our evaluation shows VoLUT can reduce bandwidth usage by 70% , boost QoE by 36.7% for volumetric video streaming and achieve 3D SR speed-up with no quality compromise.

arxiv情報

著者 Chendong Wang,Anlan Zhang,Yifan Yang,Lili Qiu,Yuqing Yang,Xinyang Jiang,Feng Qian,Suman Banerjee
発行日 2025-02-17 18:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SY, eess.SY | VoLUT: Efficient Volumetric streaming enhanced by LUT-based super-resolution はコメントを受け付けていません