AirIO: Learning Inertial Odometry with Enhanced IMU Feature Observability

要約

慣性模範(IO)のみを使用した慣性臭気(IO)(IMUS)は、無人航空機(UAV)アプリケーションに軽量で費用対効果の高いソリューションを提供しますが、既存の学習ベースのIOモデルは、歩行者の動きとは異なる非常に動的で非線形の飛行パターンのためにUAVに一般化できないことがよくあります。
この作業では、生のIMUデータをグローバル座標に変換する従来の実践が、UAVの重要な運動情報の観察性を損なうことを明らかにしていることを特定します。
ボディフレーム表現を保存することにより、この方法は大幅なパフォーマンスの改善を達成し、3つのデータセットで平均精度が66.7%増加します。
さらに、モーションネットワークに姿勢情報を明示的にエンコードすると、以前の結果よりも23.8%の改善がさらになります。
データ駆動型のIMU補正モデル(AIRIMU)と不確実性を認識した拡張カルマンフィルター(EKF)と組み合わせて、私たちのアプローチは、外部センサーや制御入力に依存せずに積極的なUAV操作の下で堅牢な状態推定を保証します。
特に、私たちの方法は、トレーニングセットに含まれていない目に見えないデータに対する強力な一般化可能性も示しており、実際のUAVアプリケーションの可能性を強調しています。

要約(オリジナル)

Inertial odometry (IO) using only Inertial Measurement Units (IMUs) offers a lightweight and cost-effective solution for Unmanned Aerial Vehicle (UAV) applications, yet existing learning-based IO models often fail to generalize to UAVs due to the highly dynamic and non-linear-flight patterns that differ from pedestrian motion. In this work, we identify that the conventional practice of transforming raw IMU data to global coordinates undermines the observability of critical kinematic information in UAVs. By preserving the body-frame representation, our method achieves substantial performance improvements, with a 66.7% average increase in accuracy across three datasets. Furthermore, explicitly encoding attitude information into the motion network results in an additional 23.8% improvement over prior results. Combined with a data-driven IMU correction model (AirIMU) and an uncertainty-aware Extended Kalman Filter (EKF), our approach ensures robust state estimation under aggressive UAV maneuvers without relying on external sensors or control inputs. Notably, our method also demonstrates strong generalizability to unseen data not included in the training set, underscoring its potential for real-world UAV applications.

arxiv情報

著者 Yuheng Qiu,Can Xu,Yutian Chen,Shibo Zhao,Junyi Geng,Sebastian Scherer
発行日 2025-06-16 14:43:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

MambaMia: A State-Space-Model-Based Compression for Efficient Video Understanding in Large Multimodal Models

要約

複数のビデオフレーム機能を圧縮する前に、大規模なマルチモーダルモデルにフィードするための効率的なフレームワークを提案し、それにより、長いまたは密集したビデオから生じる重度のトークン爆発を軽減します。
当社の設計は、ゲート付きスキップ接続と、定期的に挿入された学習クエリに適用される学習可能な加重平均プーリングメカニズムを備えた双方向の状態空間ベースのブロックを活用しています。
この構造により、空間的および時間的次元の両方にわたって階層的なダウンサンプリングが可能になり、コスト効率の高い方法でパフォーマンスを維持できます。
挑戦的な長く密集したビデオ理解タスクを超えて、私たちのアプローチは、最先端のモデルに対する競争結果を示していますが、全体的なトークン予算を大幅に削減します。
特に、提案されている状態空間ブロックを従来の変圧器に置き換えると、実質的な性能劣化が発生し、マルチフレームビデオデータを効果的に圧縮するための状態空間モデリングの利点を強調します。
私たちのフレームワークは、リソースに配慮した効率性を強調しており、実際の展開に実用的です。
複数のベンチマークにわたるスケーラビリティと一般性を検証し、効率的なリソース使用と包括的なビデオ理解の二重の目的を達成します。

要約(オリジナル)

We propose an efficient framework to compress multiple video-frame features before feeding them into large multimodal models, thereby mitigating the severe token explosion arising from long or dense videos. Our design leverages a bidirectional state-space-based block equipped with a gated skip connection and a learnable weighted-average pooling mechanism applied to periodically inserted learned queries. This structure enables hierarchical downsampling across both spatial and temporal dimensions, preserving performance in a cost-effective manner. Across challenging long and dense video understanding tasks, our approach demonstrates competitive results against state-of-the-art models, while significantly reducing overall token budget. Notably, replacing our proposed state-space block with a conventional Transformer results in substantial performance degradation, highlighting the advantages of state-space modeling for effectively compressing multi-frame video data. Our framework emphasizes resource-conscious efficiency, making it practical for real-world deployments. We validate its scalability and generality across multiple benchmarks, achieving the dual objectives of efficient resource usage and comprehensive video understanding.

arxiv情報

著者 Geewook Kim,Minjoon Seo
発行日 2025-06-16 14:49:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Integrated Pipeline for Monocular 3D Reconstruction and Finite Element Simulation in Industrial Applications

要約

機器の展開の難しさや、精度とリアルタイムのパフォーマンスのバランスをとることの難しさなど、産業環境における3Dモデリングと構造シミュレーションの課題に対処するために、このペーパーでは、モノクラービデオ、有限要素シミュレーション分析、混合現実視覚ディスプレイに基づいた高融合の3D再構成を統合し、産業用シーンのインタラクティブなTwinシステムを構築することを目指しています。
第一に、ディープラーニングに基づくNeuralAngeloアルゴリズムを使用して、サラウンドショットビデオの豊富な詳細を使用して3Dメッシュモデルを再構築します。
次に、RhinoのQuadremeshツールを使用して、初期の三角メッシュを最適化し、有限要素分析に適した構造メッシュを生成します。
最適化されたメッシュは、Hypermeshによってさらに離散化され、材料パラメーターの設定と応力シミュレーションは、高精度の応力と変形の結果を得るためにAbaqusで実行されます。
最後に、UnityおよびVuforiaエンジンと組み合わせることで、拡張現実環境でのシミュレーション結果のリアルタイムの重ね合わせとインタラクティブな操作が実現され、ユーザーの構造応答に対する直感的な理解が向上します。
実験は、この方法が高幾何学的精度を維持しながら、優れたシミュレーション効率と視覚化効果を持っていることを示しています。
複雑な産業シーンでのデジタルモデリング、機械分析、インタラクティブなディスプレイのための実用的なソリューションを提供し、産業用アプリケーションにおけるデジタルツインと混合リアリティテクノロジーを深く統合するための基礎を築きます。

要約(オリジナル)

To address the challenges of 3D modeling and structural simulation in industrial environment, such as the difficulty of equipment deployment, and the difficulty of balancing accuracy and real-time performance, this paper proposes an integrated workflow, which integrates high-fidelity 3D reconstruction based on monocular video, finite element simulation analysis, and mixed reality visual display, aiming to build an interactive digital twin system for industrial inspection, equipment maintenance and other scenes. Firstly, the Neuralangelo algorithm based on deep learning is used to reconstruct the 3D mesh model with rich details from the surround-shot video. Then, the QuadRemesh tool of Rhino is used to optimize the initial triangular mesh and generate a structured mesh suitable for finite element analysis. The optimized mesh is further discretized by HyperMesh, and the material parameter setting and stress simulation are carried out in Abaqus to obtain high-precision stress and deformation results. Finally, combined with Unity and Vuforia engine, the real-time superposition and interactive operation of simulation results in the augmented reality environment are realized, which improves users ‘intuitive understanding of structural response. Experiments show that the method has good simulation efficiency and visualization effect while maintaining high geometric accuracy. It provides a practical solution for digital modeling, mechanical analysis and interactive display in complex industrial scenes, and lays a foundation for the deep integration of digital twin and mixed reality technology in industrial applications.

arxiv情報

著者 Bowen Zheng
発行日 2025-06-16 14:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Flexible-length Text Infilling for Discrete Diffusion Models

要約

離散拡散モデルは、自己回帰モデルと比較して、双方向コンテキストの使用、並列化可能な生成、柔軟なプロンプトなどの利点を提供する新しいクラスのテキストジェネレーターです。
ただし、離散拡散モデルの重大な制限は、地上の真実の位置データにアクセスすることなく浸透する柔軟な長さまたは柔軟なポジションテキストを実行できないことです。
\ textbf {ddot}(\ textbf {d} iscrete \ textbf {d} ifusion with \ textbf {o} ptimal \ textbf {t} ransport position coupling)を紹介します。
DDOTは、トークン値とトークン位置を共同で除去し、新しいサンプルレベルの最適輸送(OT)カップリングを採用しています。
この結合は、充填されたセグメントの位置と長さを動的に調整しながら、トークンの順序付けを保存します。
私たちの方法は、既存の個別のテキスト拡散法に直交しており、さまざまな前提条件のテキスト除去者と互換性があります。
1億語やYelpなどのテキスト充填ベンチマークに関する広範な実験は、DDOTがナイーブ拡散ベースラインを上回ることを示しています。
さらに、DDOTは、最先端の非自動性モデルと同等のパフォーマンスを達成し、トレーニングの効率と柔軟性の大幅な改善を可能にします。

要約(オリジナル)

Discrete diffusion models are a new class of text generators that offer advantages such as bidirectional context use, parallelizable generation, and flexible prompting compared to autoregressive models. However, a critical limitation of discrete diffusion models is their inability to perform flexible-length or flexible-position text infilling without access to ground-truth positional data. We introduce \textbf{DDOT} (\textbf{D}iscrete \textbf{D}iffusion with \textbf{O}ptimal \textbf{T}ransport Position Coupling), the first discrete diffusion model to overcome this challenge. DDOT jointly denoises token values and token positions, employing a novel sample-level Optimal Transport (OT) coupling. This coupling preserves relative token ordering while dynamically adjusting the positions and length of infilled segments, a capability previously missing in text diffusion. Our method is orthogonal to existing discrete text diffusion methods and is compatible with various pretrained text denoisers. Extensive experiments on text infilling benchmarks such as One-Billion-Word and Yelp demonstrate that DDOT outperforms naive diffusion baselines. Furthermore, DDOT achieves performance on par with state-of-the-art non-autoregressive models and enables significant improvements in training efficiency and flexibility.

arxiv情報

著者 Andrew Zhang,Anushka Sivakumar,Chiawei Tang,Chris Thomas
発行日 2025-06-16 15:02:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントする

Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity

要約

現在の最先端の非参照画像品質評価(NR-IQA)メソッドは、通常、すべての抽出された機能が関連すると仮定して、上流のセマンティックバックボーンネットワークからの機能抽出に依存しています。
ただし、すべての機能が有益であるわけではなく、一部の機能が有害である可能性があり、慎重な選択が必要である可能性があるという重要な観察結果を出します。
経験的には、小さな特徴の空間距離を持つ多くの画像ペアが非常に異なる品質スコアを持つことができることがわかります。これは、抽出された機能にかなりの量の品質に関係のあるノイズが含まれている可能性があることを示しています。
この問題に対処するために、敵対的な視点を使用して上流タスクから有害なセマンティックノイズ機能を削除するIQAメトリック(QFM-IQM)に一致する品質認識機能を提案します。
具体的には、QFM-IQMは、画像ペアを同様の品質スコアと一致させることにより、セマンティックノイズの区別機能を強化しますが、セマンティックの特徴は敵対的なセマンティックノイズとしてさまざまなもので、逆流ノイズの摂動に対する感度を低下させることにより、上流のタスクの特徴を適応的に調整します。
さらに、蒸留フレームワークを利用してデータセットを拡張し、モデルの一般化能力を向上させます。
私たちのアプローチは、8つの標準IQAデータセットで最先端のNR-IQAメソッドよりも優れたパフォーマンスを達成します。

要約(オリジナル)

The current state-of-the-art No-Reference Image Quality Assessment (NR-IQA) methods typically rely on feature extraction from upstream semantic backbone networks, assuming that all extracted features are relevant. However, we make a key observation that not all features are beneficial, and some may even be harmful, necessitating careful selection. Empirically, we find that many image pairs with small feature spatial distances can have vastly different quality scores, indicating that the extracted features may contain a significant amount of quality-irrelevant noise. To address this issue, we propose a Quality-Aware Feature Matching IQA Metric (QFM-IQM) that employs an adversarial perspective to remove harmful semantic noise features from the upstream task. Specifically, QFM-IQM enhances the semantic noise distinguish capabilities by matching image pairs with similar quality scores but varying semantic features as adversarial semantic noise and adaptively adjusting the upstream task’s features by reducing sensitivity to adversarial noise perturbation. Furthermore, we utilize a distillation framework to expand the dataset and improve the model’s generalization ability. Our approach achieves superior performance to the state-of-the-art NR-IQA methods on eight standard IQA datasets.

arxiv情報

著者 Xudong Li,Timin Gao,Runze Hu,Yan Zhang,Shengchuan Zhang,Xiawu Zheng,Jingyuan Zheng,Yunhang Shen,Ke Li,Yutao Liu,Pingyang Dai,Rongrong Ji
発行日 2025-06-16 15:09:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Evaluation of Vision Transformers for Multimodal Image Classification: A Case Study on Brain, Lung, and Kidney Tumors

要約

ニューラルネットワークは、特にがんの検出と分類において、医療診断の標準的な手法となっています。
この作業では、磁気共鳴画像(MRI)およびコンピューター断層撮影(CT)スキャンのいくつかのデータセットで、Swin TransformerやMaxvitを含むVision Transformers Architecturesのパフォーマンスを評価します。
脳、肺、腎臓の腫瘍を備えた3つのトレーニングセットの画像を使用しました。
各データセットには、脳膠腫や髄膜腫から良性および悪性肺の状態、嚢胞や癌などの腎臓の異常に至るまで、さまざまな分類ラベルが含まれています。
この作業の目的は、各データセットにおけるニューラルネットワークの動作と、さまざまな画像のモダリティと腫瘍クラスを組み合わせることの利点を分析することです。
複合データセットと個々のデータセットでモデルを微調整することにより、いくつかの実験を設計しました。
結果は、SWINトランスが高精度を提供し、個々のデータセットで平均で最大99 \%、複合データセットで99.4 \%精度を達成することを明らかにしました。
この研究は、さまざまな画像のモダリティと機能へのトランスベースのモデルの適応性を強調しています。
ただし、限られた注釈付きデータや解釈可能性の問題を含む課題は続きます。
将来の作業は、他の画像のモダリティを組み込み、診断機能を強化することにより、この研究を拡大します。
これらのモデルを多様なデータセットに統合すると、精密医療の大幅な進歩を遂げると、より効率的で包括的なヘルスケアソリューションへの道が開かれます。

要約(オリジナル)

Neural networks have become the standard technique for medical diagnostics, especially in cancer detection and classification. This work evaluates the performance of Vision Transformers architectures, including Swin Transformer and MaxViT, in several datasets of magnetic resonance imaging (MRI) and computed tomography (CT) scans. We used three training sets of images with brain, lung, and kidney tumors. Each dataset includes different classification labels, from brain gliomas and meningiomas to benign and malignant lung conditions and kidney anomalies such as cysts and cancers. This work aims to analyze the behavior of the neural networks in each dataset and the benefits of combining different image modalities and tumor classes. We designed several experiments by fine-tuning the models on combined and individual datasets. The results revealed that the Swin Transformer provided high accuracy, achieving up to 99\% on average for individual datasets and 99.4\% accuracy for the combined dataset. This research highlights the adaptability of Transformer-based models to various image modalities and features. However, challenges persist, including limited annotated data and interpretability issues. Future work will expand this study by incorporating other image modalities and enhancing diagnostic capabilities. Integrating these models across diverse datasets could mark a significant advance in precision medicine, paving the way for more efficient and comprehensive healthcare solutions.

arxiv情報

著者 Óscar A. Martín,Javier Sánchez
発行日 2025-06-16 15:10:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Omni-AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented for Efficient Long Video Understanding

要約

マルチモーダル大手言語モデル(MLLM)は、固定されたコンテキストウィンドウと弱い長期依存性モデリングにより、長いビデオに苦労しています。
ビデオの既存の検索能力(RAG)メソッドは、静的検索戦略を使用し、単純なクエリの効率性と複雑なタスクの情報損失をもたらします。
これに対処するために、軽量の意図分類器を使用してクエリの複雑さに基づいて検索の粒度を動的に適応させる新しいフレームワークであるAdavideoragを提案します。
当社のフレームワークでは、OMNI-Knowledgeインデックスモジュールを採用して、テキスト(キャプション、ASR、OCR)、視覚的機能、およびセマンティックグラフから階層データベースを構築し、タスク全体で最適なリソース割り当てを可能にします。
また、包括的な評価のためにHIVUベンチマークを紹介します。
実験は、既存のMLLMへのシームレスな統合により、長いビデオ理解の効率と精度の向上を示しています。
Adavideoragは、ビデオ分析における適応的検索のための新しいパラダイムを確立します。
コードはhttps://github.com/xzc-zju/adavideoragでオープンソーシングされます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) struggle with long videos due to fixed context windows and weak long-term dependency modeling. Existing Retrieval-Augmented Generation (RAG) methods for videos use static retrieval strategies, leading to inefficiencies for simple queries and information loss for complex tasks. To address this, we propose AdaVideoRAG, a novel framework that dynamically adapts retrieval granularity based on query complexity using a lightweight intent classifier. Our framework employs an Omni-Knowledge Indexing module to build hierarchical databases from text (captions, ASR, OCR), visual features, and semantic graphs, enabling optimal resource allocation across tasks. We also introduce the HiVU benchmark for comprehensive evaluation. Experiments demonstrate improved efficiency and accuracy for long-video understanding, with seamless integration into existing MLLMs. AdaVideoRAG establishes a new paradigm for adaptive retrieval in video analysis. Codes will be open-sourced at https://github.com/xzc-zju/AdaVideoRAG.

arxiv情報

著者 Zhucun Xue,Jiangning Zhang,Xurong Xie,Yuxuan Cai,Yong Liu,Xiangtai Li,Dacheng Tao
発行日 2025-06-16 15:18:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Dive3D: Diverse Distillation-based Text-to-3D Generation via Score Implicit Matching

要約

事前に訓練された2D拡散モデルを3D資産に蒸留することで、テキストから3D合成の顕著な進歩が促進されています。
ただし、既存の方法は通常、スコア蒸留サンプリング(SDS)損失に依存しています。これには、非対称KLの発散が含まれます。これは、モードを求める行動を本質的に支持し、生成の多様性を制限する定式化です。
このペーパーでは、KLベースの目標をスコア暗黙のマッチング(SIM)損失に置き換える新しいテキストから3Dの生成フレームワークであるDive3Dを紹介します。
さらに、DIVE3Dは、統一された発散の観点の下で、拡散蒸留と報酬誘導最適化の両方を統合します。
このような再定式化は、SIMの損失とともに、テキストの調整、人間の好み、および全体的な視覚的忠実度を改善しながら、大幅に多様な3D出力をもたらします。
さまざまな2D対3DプロンプトにわたってDIVE3Dを検証し、多様性、フォトリアリズム、審美的な魅力など、定性的評価の以前の方法よりも一貫して優れていることがわかります。
さらに、GPTEVAL3Dベンチマークでのパフォーマンスを評価し、9つの最先端のベースラインと比較します。
DIVE3Dは、テキストアセットのアライメント、3Dの妥当性、テキスト – 幾何学の一貫性、テクスチャの品質、幾何学的な詳細など、定量的メトリックに関する強力な結果も達成されます。

要約(オリジナル)

Distilling pre-trained 2D diffusion models into 3D assets has driven remarkable advances in text-to-3D synthesis. However, existing methods typically rely on Score Distillation Sampling (SDS) loss, which involves asymmetric KL divergence–a formulation that inherently favors mode-seeking behavior and limits generation diversity. In this paper, we introduce Dive3D, a novel text-to-3D generation framework that replaces KL-based objectives with Score Implicit Matching (SIM) loss, a score-based objective that effectively mitigates mode collapse. Furthermore, Dive3D integrates both diffusion distillation and reward-guided optimization under a unified divergence perspective. Such reformulation, together with SIM loss, yields significantly more diverse 3D outputs while improving text alignment, human preference, and overall visual fidelity. We validate Dive3D across various 2D-to-3D prompts and find that it consistently outperforms prior methods in qualitative assessments, including diversity, photorealism, and aesthetic appeal. We further evaluate its performance on the GPTEval3D benchmark, comparing against nine state-of-the-art baselines. Dive3D also achieves strong results on quantitative metrics, including text-asset alignment, 3D plausibility, text-geometry consistency, texture quality, and geometric detail.

arxiv情報

著者 Weimin Bai,Yubo Li,Wenzheng Chen,Weijian Luo,He Sun
発行日 2025-06-16 15:21:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Adaptive Sensitivity Analysis for Robust Augmentation against Natural Corruptions in Image Segmentation

要約

画像セグメンテーションモデルで堅牢性を達成することは、ピクセルレベルの分類の微細な性質のために困難です。
これらのモデルは、多くのリアルタイム認識アプリケーションにとって重要であり、特に自律システムの野生の自然な腐敗に直面した場合に闘争します。
感度分析は、入力変数がモデルの出力にどのように影響するかを理解するのに役立ちますが、トレーニングデータにおける自然および制御不能な腐敗へのアプリケーションは計算的に高価です。
この作業では、自然の腐敗に対する堅牢性を高めるために、適応的で感度誘導された増強法を提示します。
当社の感度分析は平均して10倍速く実行され、以前の感度分析よりも約200倍のストレージが必要であり、モデルのない増強ポリシーのトレーニング中に実用的で飛行中の推定を可能にします。
最小限の微調整により、当社の感度誘導拡張法により、画像セグメンテーションにおける最先端のデータ増強技術と比較して、現実世界と合成データセットの両方で堅牢性が向上します。
この作業のコード実装は、https://github.com/laurayuzheng/sensaugにあります。

要約(オリジナル)

Achieving robustness in image segmentation models is challenging due to the fine-grained nature of pixel-level classification. These models, which are crucial for many real-time perception applications, particularly struggle when faced with natural corruptions in the wild for autonomous systems. While sensitivity analysis can help us understand how input variables influence model outputs, its application to natural and uncontrollable corruptions in training data is computationally expensive. In this work, we present an adaptive, sensitivity-guided augmentation method to enhance robustness against natural corruptions. Our sensitivity analysis on average runs 10x faster and requires about 200x less storage than previous sensitivity analysis, enabling practical, on-the-fly estimation during training for a model-free augmentation policy. With minimal fine-tuning, our sensitivity-guided augmentation method achieves improved robustness on both real-world and synthetic datasets compared to state-of-the-art data augmentation techniques in image segmentation. Code implementation for this work can be found at: https://github.com/laurayuzheng/SensAug.

arxiv情報

著者 Laura Zheng,Wenjie Wei,Tony Wu,Jacob Clements,Shreelekha Revankar,Andre Harrison,Yu Shen,Ming C. Lin
発行日 2025-06-16 15:26:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models

要約

ジェスチャーの合成は、映画、ロボット工学、仮想現実などのさまざまな分野で幅広いアプリケーションを備えた、人間コンピューターの相互作用の重要な領域です。
最近の進歩により、拡散モデルと注意メカニズムを利用して、ジェスチャーの合成を改善しています。
ただし、これらの手法の計算の複雑さが高いため、遅延が低い長くて多様なシーケンスを生成することは依然として課題です。
課題に対処するための状態空間モデル(SSMS)の可能性を調査し、ジェスチャーの品質を高めるために離散運動事前に2段階モデリング戦略を実装します。
基礎的なマンバブロックを活用して、マンバタルクを紹介し、マルチモーダル統合を通じてジェスチャーの多様性とリズムを高めます。
広範な実験は、私たちの方法が最先端のモデルのパフォーマンスに一致するかそれを超えることを示しています。
当社のプロジェクトは、https://kkkkkka.github.io/mambatalkで公開されています

要約(オリジナル)

Gesture synthesis is a vital realm of human-computer interaction, with wide-ranging applications across various fields like film, robotics, and virtual reality. Recent advancements have utilized the diffusion model and attention mechanisms to improve gesture synthesis. However, due to the high computational complexity of these techniques, generating long and diverse sequences with low latency remains a challenge. We explore the potential of state space models (SSMs) to address the challenge, implementing a two-stage modeling strategy with discrete motion priors to enhance the quality of gestures. Leveraging the foundational Mamba block, we introduce MambaTalk, enhancing gesture diversity and rhythm through multimodal integration. Extensive experiments demonstrate that our method matches or exceeds the performance of state-of-the-art models. Our project is publicly available at https://kkakkkka.github.io/MambaTalk

arxiv情報

著者 Zunnan Xu,Yukang Lin,Haonan Han,Sicheng Yang,Ronghui Li,Yachao Zhang,Xiu Li
発行日 2025-06-16 15:28:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | コメントする