MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models

要約

ジェスチャーの合成は、映画、ロボット工学、仮想現実などのさまざまな分野で幅広いアプリケーションを備えた、人間コンピューターの相互作用の重要な領域です。
最近の進歩により、拡散モデルと注意メカニズムを利用して、ジェスチャーの合成を改善しています。
ただし、これらの手法の計算の複雑さが高いため、遅延が低い長くて多様なシーケンスを生成することは依然として課題です。
課題に対処するための状態空間モデル(SSMS)の可能性を調査し、ジェスチャーの品質を高めるために離散運動事前に2段階モデリング戦略を実装します。
基礎的なマンバブロックを活用して、マンバタルクを紹介し、マルチモーダル統合を通じてジェスチャーの多様性とリズムを高めます。
広範な実験は、私たちの方法が最先端のモデルのパフォーマンスに一致するかそれを超えることを示しています。
当社のプロジェクトは、https://kkkkkka.github.io/mambatalkで公開されています

要約(オリジナル)

Gesture synthesis is a vital realm of human-computer interaction, with wide-ranging applications across various fields like film, robotics, and virtual reality. Recent advancements have utilized the diffusion model and attention mechanisms to improve gesture synthesis. However, due to the high computational complexity of these techniques, generating long and diverse sequences with low latency remains a challenge. We explore the potential of state space models (SSMs) to address the challenge, implementing a two-stage modeling strategy with discrete motion priors to enhance the quality of gestures. Leveraging the foundational Mamba block, we introduce MambaTalk, enhancing gesture diversity and rhythm through multimodal integration. Extensive experiments demonstrate that our method matches or exceeds the performance of state-of-the-art models. Our project is publicly available at https://kkakkkka.github.io/MambaTalk

arxiv情報

著者 Zunnan Xu,Yukang Lin,Haonan Han,Sicheng Yang,Ronghui Li,Yachao Zhang,Xiu Li
発行日 2025-06-16 15:28:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models はコメントを受け付けていません

Agentic 3D Scene Generation with Spatially Contextualized VLMs

要約

ビジョン言語モデル(VLM)によって有効になったマルチモーダルコンテンツ生成の最近の進歩にもかかわらず、構造化された3Dシーンについて推論し、生成する能力はほとんど既知のままです。
この制限により、具体化されたAI、没入型シミュレーション、インタラクティブな3Dアプリケーションなどの空間的に接地されたタスクでのユーティリティが制約されます。
継続的に進化する空間的コンテキストを注入することにより、VLMが複雑な3D環境を生成、理解、編集できるようにする新しいパラダイムを導入します。
マルチモーダル入力から構築されたこのコンテキストは、3つのコンポーネントで構成されています。高レベルのセマンティックブループリントを提供するシーンポートレート、オブジェクトレベルのジオメトリをキャプチャする意味的にラベル付けされたポイントクラウド、および単位、バイナリ、および高次制約を含む豊富な空間的関係をコードするシーンハイパーグラフ。
これらのコンポーネントは、VLMに、その固有のマルチモーダル推論機能を効果的な空間推論のために構造化された3D理解と統合する構造化されたジオメトリ認識ワーキングメモリを提供します。
この基盤に基づいて、VLMが空間コンテキストから読み取り、更新するエージェント3Dシーン生成パイプラインを開発します。
パイプラインは、幾何学的修復、自動検証による環境のセットアップ、およびシーンハイパーグラフによって導かれる人間工学に基づいた調整を伴う高品質の資産生成を特徴としています。
実験は、私たちのフレームワークが多様で挑戦的な入力を処理し、以前の作業では観察されないレベルの一般化を達成できることを示しています。
さらなる結果は、空間的コンテキストを注入することで、VLMがインタラクティブシーンの編集やパス計画などの下流タスクを実行できることを示しており、コンピューターグラフィックス、3Dビジョン、具体化されたアプリケーションの空間的にインテリジェントなシステムの強力な可能性を示唆しています。
プロジェクトページ:https://spatctxvlm.github.io/project_page/。

要約(オリジナル)

Despite recent advances in multimodal content generation enabled by vision-language models (VLMs), their ability to reason about and generate structured 3D scenes remains largely underexplored. This limitation constrains their utility in spatially grounded tasks such as embodied AI, immersive simulations, and interactive 3D applications. We introduce a new paradigm that enables VLMs to generate, understand, and edit complex 3D environments by injecting a continually evolving spatial context. Constructed from multimodal input, this context consists of three components: a scene portrait that provides a high-level semantic blueprint, a semantically labeled point cloud capturing object-level geometry, and a scene hypergraph that encodes rich spatial relationships, including unary, binary, and higher-order constraints. Together, these components provide the VLM with a structured, geometry-aware working memory that integrates its inherent multimodal reasoning capabilities with structured 3D understanding for effective spatial reasoning. Building on this foundation, we develop an agentic 3D scene generation pipeline in which the VLM iteratively reads from and updates the spatial context. The pipeline features high-quality asset generation with geometric restoration, environment setup with automatic verification, and ergonomic adjustment guided by the scene hypergraph. Experiments show that our framework can handle diverse and challenging inputs, achieving a level of generalization not observed in prior work. Further results demonstrate that injecting spatial context enables VLMs to perform downstream tasks such as interactive scene editing and path planning, suggesting strong potential for spatially intelligent systems in computer graphics, 3D vision, and embodied applications. Project page: https://spatctxvlm.github.io/project_page/.

arxiv情報

著者 Xinhang Liu,Yu-Wing Tai,Chi-Keung Tang
発行日 2025-06-16 15:42:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Agentic 3D Scene Generation with Spatially Contextualized VLMs はコメントを受け付けていません

Exploiting the Exact Denoising Posterior Score in Training-Free Guidance of Diffusion Models

要約

拡散モデルの成功は、画像の修復やその他の逆問題を解決するための除去プロセスのトレーニングなしのガイダンスを介して条件付きサンプリングを実行することに関心を示しています。
拡散後のサンプリング(DPS)に基づく人気のあるクラスのメソッドは、扱いにくい後部スコア関数を直接近似しようとします。
この作業では、無条件のスコア関数の観点から扱いやすい純粋に除去されるタスクのための正確な後部スコアの新しい表現を提示します。
この結果を活用して、タスクを除去するためのDPSスコアの時間依存エラーを分析し、各タイムステップでのエラーを最小限に抑えるためにステップサイズを計算します。
これらのステップサイズは、色付け、ランダムの開始、スーパー解像度などの関連する逆問題に移行できることを実証します。
その単純さにもかかわらず、このアプローチは最先端のテクニックと競争力があり、DPSよりも少ない時間ステップでサンプリングを可能にします。

要約(オリジナル)

The success of diffusion models has driven interest in performing conditional sampling via training-free guidance of the denoising process to solve image restoration and other inverse problems. A popular class of methods, based on Diffusion Posterior Sampling (DPS), attempts to approximate the intractable posterior score function directly. In this work, we present a novel expression for the exact posterior score for purely denoising tasks that is tractable in terms of the unconditional score function. We leverage this result to analyze the time-dependent error in the DPS score for denoising tasks and compute step sizes on the fly to minimize the error at each time step. We demonstrate that these step sizes are transferable to related inverse problems such as colorization, random inpainting, and super resolution. Despite its simplicity, this approach is competitive with state-of-the-art techniques and enables sampling with fewer time steps than DPS.

arxiv情報

著者 Gregory Bellchambers
発行日 2025-06-16 15:43:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML | Exploiting the Exact Denoising Posterior Score in Training-Free Guidance of Diffusion Models はコメントを受け付けていません

Enhancing Logits Distillation with Plug\&Play Kendall’s $τ$ Ranking Loss

要約

知識の蒸留により、通常、教師と生徒のロジットの間のカルバック – leibler(kl)の発散が最小限に抑えられます。
ただし、KLの発散を最適化することは、学生にとって挑戦的であり、多くの場合、最適下のソリューションにつながります。
さらに、KL Divergenceスケールによって誘導される勾配が教師ロジットの大きさで誘導され、それにより低確率チャネルの更新が減少することを示しています。
この不均衡は、クラス間情報の転送を弱め、学生が達成できるパフォーマンスの改善を制限します。
この問題を軽減するために、ロジットベースの蒸留フレームワークにシームレスに統合できるKendallの$ \ Tau $係数に基づいて、プラグアンドプレイの補助ランキング損失を提案します。
クラス間のリレーショナル情報を提供しながら、勾配を低確率チャネルに再調整します。
提案されたランキング損失は、スケーリングをチャネルすることが主に不変であり、KL発散の客観的な客観的なものを最適化し、置換ではなく自然な補体になることを実証します。
CIFAR-100、Imagenet、およびCoCoデータセットの広範な実験、およびさまざまなCNNおよびVITの教師学生アーキテクチャの組み合わせは、プラグアンドプレイランキングの損失が一貫して複数の蒸留ベースラインのパフォーマンスを高めることを示しています。
コードはhttps://github.com/overnightea/rankingloss-kdで入手できます

要約(オリジナル)

Knowledge distillation typically minimizes the Kullback-Leibler (KL) divergence between teacher and student logits. However, optimizing the KL divergence can be challenging for the student and often leads to sub-optimal solutions. We further show that gradients induced by KL divergence scale with the magnitude of the teacher logits, thereby diminishing updates on low-probability channels. This imbalance weakens the transfer of inter-class information and in turn limits the performance improvements achievable by the student. To mitigate this issue, we propose a plug-and-play auxiliary ranking loss based on Kendall’s $\tau$ coefficient that can be seamlessly integrated into any logit-based distillation framework. It supplies inter-class relational information while rebalancing gradients toward low-probability channels. We demonstrate that the proposed ranking loss is largely invariant to channel scaling and optimizes an objective aligned with that of KL divergence, making it a natural complement rather than a replacement. Extensive experiments on CIFAR-100, ImageNet, and COCO datasets, as well as various CNN and ViT teacher-student architecture combinations, demonstrate that our plug-and-play ranking loss consistently boosts the performance of multiple distillation baselines. Code is available at https://github.com/OvernighTea/RankingLoss-KD

arxiv情報

著者 Yuchen Guan,Runxi Cheng,Kang Liu,Chun Yuan
発行日 2025-06-16 15:47:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhancing Logits Distillation with Plug\&Play Kendall’s $τ$ Ranking Loss はコメントを受け付けていません

Unify3D: An Augmented Holistic End-to-end Monocular 3D Human Reconstruction via Anatomy Shaping and Twins Negotiating

要約

Monocular 3D Clooded Human Reconstructionは、単一の画像から完全な3Dアバターを作成することを目的としています。
1つのRGB画像に欠けている人間の幾何学に取り組むために、現在の方法は通常、明示的な幾何学的表現の前のモデルに頼ります。
再構成自体については、ITと入力画像の両方のモデリングに焦点を当てています。
このルーチンは、前のモデルによって制約されており、再構成タスクの完全性を見落としています。
これに対処するために、このペーパーでは、2D画像から3Dアバターへの直接予測のエンドツーエンドネットワークを利用して、明示的な中間ジオメトリディスプレイを排除するエンドツーエンドネットワークを使用して、全体的なプロセスとして人間の再構成を扱う新しいパラダイムを紹介します。
これに基づいて、2つのコアコンポーネントで構成される新しい再構成フレームワークをさらに提案します。解剖学的形状抽出モジュールは、人間の解剖学の専門性を考慮した暗黙の形状機能をキャプチャします。
さらに、コミックデータ増強戦略を提案し、15K+ 3Dヒトスキャンを構築して、より複雑なケース入力でモデルのパフォーマンスを強化します。
2つのテストセットと多くの野生の症例に関する広範な実験は、SOTAメソッドよりも私たちの方法の優位性を示しています。
私たちのデモは、https://e2e3dgsrecon.github.io/e2e3dgsrecon/にあります。

要約(オリジナル)

Monocular 3D clothed human reconstruction aims to create a complete 3D avatar from a single image. To tackle the human geometry lacking in one RGB image, current methods typically resort to a preceding model for an explicit geometric representation. For the reconstruction itself, focus is on modeling both it and the input image. This routine is constrained by the preceding model, and overlooks the integrity of the reconstruction task. To address this, this paper introduces a novel paradigm that treats human reconstruction as a holistic process, utilizing an end-to-end network for direct prediction from 2D image to 3D avatar, eliminating any explicit intermediate geometry display. Based on this, we further propose a novel reconstruction framework consisting of two core components: the Anatomy Shaping Extraction module, which captures implicit shape features taking into account the specialty of human anatomy, and the Twins Negotiating Reconstruction U-Net, which enhances reconstruction through feature interaction between two U-Nets of different modalities. Moreover, we propose a Comic Data Augmentation strategy and construct 15k+ 3D human scans to bolster model performance in more complex case input. Extensive experiments on two test sets and many in-the-wild cases show the superiority of our method over SOTA methods. Our demos can be found in : https://e2e3dgsrecon.github.io/e2e3dgsrecon/.

arxiv情報

著者 Nanjie Yao,Gangjian Zhang,Wenhao Shen,Jian Shu,Hao Wang
発行日 2025-06-16 15:48:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unify3D: An Augmented Holistic End-to-end Monocular 3D Human Reconstruction via Anatomy Shaping and Twins Negotiating はコメントを受け付けていません

XYZ-IBD: A High-precision Bin-picking Dataset for Object 6D Pose Estimation Capturing Real-world Industrial Complexity

要約

XYZ-IBDを紹介します。これは、挑戦的なオブジェクトのジオメトリ、反射材料、重度の閉塞、密集した混乱など、実世界の産業の複雑さを捉える6Dポーズ推定のビンピッキングデータセットです。
データセットは、ミリメートルのaccurate注釈を備えた本物のロボット操作シナリオを反映しています。
主に飽和に近づく家庭用オブジェクトに焦点を当てる既存のデータセットとは異なり、XYZ-IBDは未解決の現実的な産業条件を表します。
データセットには、さまざまな形状とサイズの15のテクスチャレス、メタリック、および主に対称的なオブジェクトがあります。
これらのオブジェクトは非常に閉塞されており、高密度のビンにランダムに配置されており、実際のビンピッキングの課題を複製します。
XYZ-IBDは、2つの高精度産業カメラと1つの市販のカメラを使用して収集され、RGB、グレースケール、深度画像を提供しました。
シミュレートされたビンピッキング条件の下でレンダリングされた大規模な合成データセットとともに、75のマルチビューリアルワールドシーンが含まれています。
私たちは、反射防止スプレー、マルチビュー深度融合、半自動注釈を含む細心の注釈パイプラインを採用し、産業操作に必要なミリメートルレベルのポーズ標識精度を達成します。
シミュレートされた環境での定量化は、根真実の注釈の信頼性を確認します。
2D検出、6Dポーズ推定、およびデータセットの深さ推定タスクに関する最先端の方法をベンチマークし、現在の学術的な世帯ベンチマークと比較して、セットアップの重要なパフォーマンス分解を明らかにします。
XYZ-IBDは、現実世界のビンピッキングシナリオの複雑さを捉えることで、将来の研究にもっと現実的で挑戦的な問題を導入します。
データセットとベンチマークは、https://xyz-ibd.github.io/xyz-ibd/で公開されています。

要約(オリジナル)

We introduce XYZ-IBD, a bin-picking dataset for 6D pose estimation that captures real-world industrial complexity, including challenging object geometries, reflective materials, severe occlusions, and dense clutter. The dataset reflects authentic robotic manipulation scenarios with millimeter-accurate annotations. Unlike existing datasets that primarily focus on household objects, which approach saturation,XYZ-IBD represents the unsolved realistic industrial conditions. The dataset features 15 texture-less, metallic, and mostly symmetrical objects of varying shapes and sizes. These objects are heavily occluded and randomly arranged in bins with high density, replicating the challenges of real-world bin-picking. XYZ-IBD was collected using two high-precision industrial cameras and one commercially available camera, providing RGB, grayscale, and depth images. It contains 75 multi-view real-world scenes, along with a large-scale synthetic dataset rendered under simulated bin-picking conditions. We employ a meticulous annotation pipeline that includes anti-reflection spray, multi-view depth fusion, and semi-automatic annotation, achieving millimeter-level pose labeling accuracy required for industrial manipulation. Quantification in simulated environments confirms the reliability of the ground-truth annotations. We benchmark state-of-the-art methods on 2D detection, 6D pose estimation, and depth estimation tasks on our dataset, revealing significant performance degradation in our setups compared to current academic household benchmarks. By capturing the complexity of real-world bin-picking scenarios, XYZ-IBD introduces more realistic and challenging problems for future research. The dataset and benchmark are publicly available at https://xyz-ibd.github.io/XYZ-IBD/.

arxiv情報

著者 Junwen Huang,Jizhong Liang,Jiaqi Hu,Martin Sundermeyer,Peter KT Yu,Nassir Navab,Benjamin Busam
発行日 2025-06-16 15:48:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | XYZ-IBD: A High-precision Bin-picking Dataset for Object 6D Pose Estimation Capturing Real-world Industrial Complexity はコメントを受け付けていません

FreeQ-Graph: Free-form Querying with Semantic Consistent Scene Graph for 3D Scene Understanding

要約

フリーフォーム言語を介した複雑な3Dシーンでのセマンティッククエリは、重要な課題を提示します。
既存の3Dシーンの理解方法を使用して、大規模なトレーニングデータとクリップを使用して、テキストクエリを3Dセマンティック機能に合わせます。
ただし、トレーニングデータから事前定義された語彙事前に依存することは、自由形式のセマンティッククエリを妨げます。
その上、最近の高度な方法は、シーンの理解のためにLLMに依存していますが、包括的な3Dシーンレベルの情報がなく、LLMが生成した出力の潜在的な矛盾を見落としていることがよくあります。
私たちの論文では、3Dシーンの理解のためのセマンティックな一貫したシーングラフでフリーフォームクエリを可能にするFreeq-Graphを提案します。
核となるアイデアは、事前定義された語彙なしで完全かつ正確な3Dシーングラフからフリーフォームクエリをエンコードし、3つの重要なステップで達成した3D一貫したセマンティックラベルに揃えることです。
LLMおよびLVLMガイダンスを通じてフリーフォームオブジェクトとその関係をマッピングする完全で正確な3Dシーングラフを構築することにより、完全にトレーニングデータまたは事前定義されたプライアーが含まれていません。
最も重要なことは、マージされたスーパーポイントからの3Dセマンティックアラインド機能を活用して、3Dセマンティックの一貫性を高めることにより、グラフノードを正確なセマンティックラベルと並べることです。
フリーフォームセマンティッククエリを有効にするために、シーンレベルとオブジェクトレベルの情報を複雑な推論に組み合わせたLLMベースの推論アルゴリズムを設計します。
グラフ生成の精度も検証しながら、3Dセマンティック接地、セグメンテーション、および複雑なクエリタスクに関する広範な実験を実施しました。
6つのデータセットでの実験は、モデルが複雑なフリーフォームセマンティッククエリと複雑なリレーショナル推論の両方に優れていることを示しています。

要約(オリジナル)

Semantic querying in complex 3D scenes through free-form language presents a significant challenge. Existing 3D scene understanding methods use large-scale training data and CLIP to align text queries with 3D semantic features. However, their reliance on predefined vocabulary priors from training data hinders free-form semantic querying. Besides, recent advanced methods rely on LLMs for scene understanding but lack comprehensive 3D scene-level information and often overlook the potential inconsistencies in LLM-generated outputs. In our paper, we propose FreeQ-Graph, which enables Free-form Querying with a semantic consistent scene Graph for 3D scene understanding. The core idea is to encode free-form queries from a complete and accurate 3D scene graph without predefined vocabularies, and to align them with 3D consistent semantic labels, which accomplished through three key steps. We initiate by constructing a complete and accurate 3D scene graph that maps free-form objects and their relations through LLM and LVLM guidance, entirely free from training data or predefined priors. Most importantly, we align graph nodes with accurate semantic labels by leveraging 3D semantic aligned features from merged superpoints, enhancing 3D semantic consistency. To enable free-form semantic querying, we then design an LLM-based reasoning algorithm that combines scene-level and object-level information to intricate reasoning. We conducted extensive experiments on 3D semantic grounding, segmentation, and complex querying tasks, while also validating the accuracy of graph generation. Experiments on 6 datasets show that our model excels in both complex free-form semantic queries and intricate relational reasoning.

arxiv情報

著者 Chenlu Zhan,Gaoang Wang,Hongwei Wang
発行日 2025-06-16 15:56:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FreeQ-Graph: Free-form Querying with Semantic Consistent Scene Graph for 3D Scene Understanding はコメントを受け付けていません

DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models

要約

モデルの編集は、時間のかかる完全な再訓練を必要とせずに、事前に訓練されたモデルの知識を効率的に更新することを目的としています。
既存の先駆的な編集方法は有望な結果を達成しますが、主にシングルモーダル言語モデル(LLM)の編集に焦点を当てています。
ただし、複数のモダリティを含むビジョン言語モデル(VLM)の場合、編集パフォーマンスに対する各モダリティの役割と影響はほとんど未調査のままです。
このギャップに対処するために、モデルの編集に対するテキストと視覚のモダリティの影響を調査し、次のことを見つけます。(1)テキストと視覚の表現は、さまざまな重要性を反映して、異なる層でピーク感度に達します。
(2)両方のモダリティを編集することは、知識を効率的に更新できますが、これはモデルの元の機能を損なうコストでもたらされます。
調査結果に基づいて、それぞれのキー層でテキストと視覚の両方のモダリティを変更する編集者であるDualeDitを提案します。
さらに、より機密のテキストモダリティ内でゲーティングモジュールを導入し、デュアルエディットがモデルの元の情報を保存しながら新しい知識を効率的に更新できるようにします。
複数のVLMバックボーンとベンチマークデータセットにわたってDualeDITを評価し、さまざまな評価メトリックで最先端のVLM編集ベースラインと適応LLM編集方法よりも優れていることを示しています。

要約(オリジナル)

Model editing aims to efficiently update a pre-trained model’s knowledge without the need for time-consuming full retraining. While existing pioneering editing methods achieve promising results, they primarily focus on editing single-modal language models (LLMs). However, for vision-language models (VLMs), which involve multiple modalities, the role and impact of each modality on editing performance remain largely unexplored. To address this gap, we explore the impact of textual and visual modalities on model editing and find that: (1) textual and visual representations reach peak sensitivity at different layers, reflecting their varying importance; and (2) editing both modalities can efficiently update knowledge, but this comes at the cost of compromising the model’s original capabilities. Based on our findings, we propose DualEdit, an editor that modifies both textual and visual modalities at their respective key layers. Additionally, we introduce a gating module within the more sensitive textual modality, allowing DualEdit to efficiently update new knowledge while preserving the model’s original information. We evaluate DualEdit across multiple VLM backbones and benchmark datasets, demonstrating its superiority over state-of-the-art VLM editing baselines as well as adapted LLM editing methods on different evaluation metrics.

arxiv情報

著者 Zhiyi Shi,Binjie Wang,Chongjie Si,Yichen Wu,Junsik Kim,Hanspeter Pfister
発行日 2025-06-16 16:04:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models はコメントを受け付けていません

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

要約

GPT-4O様の大型マルチモーダルモデル(LMMS)の出現により、テキスト、ビジョン、音声モダリティの統合の調査が発生し、より柔軟なマルチモーダル相互作用がサポートされています。
既存のLMMは通常、シーケンスディメンションに沿ったモダリティの表現を連結し、それらを大きな言語モデル(LLM)バックボーンに供給します。
シーケンスデジメンションの連結は、モダリティ統合のために簡単ですが、多くの場合、モダリティアライメントを学習するために大規模なデータに大きく依存しています。
この論文では、モダリティ間の関係をより意図的にモデル化することを目指しており、それにより、より効率的で柔軟なモダリティアラインメントを達成することを目指しています。
この目的のために、効率的なモダリティアラインメントを備えた大規模な言語ビジョンスピーチモデルであるStream-Omniを提案します。これは、さまざまなモダリティの組み合わせの下での相互作用を同時にサポートできます。
Stream-OmniはLLMをバックボーンとして採用し、その関係に基づいてビジョンとスピーチをテキストに合わせます。
テキストを意味的に補完するビジョンについては、Stream-Omniはシーケンスディメンションの連結を使用して、ビジョンテキストアライメントを実現します。
テキストと意味的に一致するスピーチの場合、Stream-OmniはCTCベースのレイヤーダメンションマッピングを導入して、音声テキストアライメントを実現します。
このようにして、Stream-Omniは、より少ないデータ(特に音声)でモダリティアラインメントを実現し、他のモダリティへのテキスト機能の転送を可能にします。
さまざまなベンチマークでの実験は、Stream-Omniが視覚的理解、音声相互作用、視覚接地の音声相互作用タスクに関する強力なパフォーマンスを達成することを示しています。
レイヤー次元マッピングにより、Stream-Omniは、音声相互作用中に中間テキスト出力(ASR転写やモデル応答など)を同時に提供し、ユーザーに包括的なマルチモーダルエクスペリエンスを提供できます。

要約(オリジナル)

The emergence of GPT-4o-like large multimodal models (LMMs) has raised the exploration of integrating text, vision, and speech modalities to support more flexible multimodal interaction. Existing LMMs typically concatenate representation of modalities along the sequence dimension and feed them into a large language model (LLM) backbone. While sequence-dimension concatenation is straightforward for modality integration, it often relies heavily on large-scale data to learn modality alignments. In this paper, we aim to model the relationships between modalities more purposefully, thereby achieving more efficient and flexible modality alignments. To this end, we propose Stream-Omni, a large language-vision-speech model with efficient modality alignments, which can simultaneously support interactions under various modality combinations. Stream-Omni employs LLM as the backbone and aligns the vision and speech to the text based on their relationships. For vision that is semantically complementary to text, Stream-Omni uses sequence-dimension concatenation to achieve vision-text alignment. For speech that is semantically consistent with text, Stream-Omni introduces a CTC-based layer-dimension mapping to achieve speech-text alignment. In this way, Stream-Omni can achieve modality alignments with less data (especially speech), enabling the transfer of text capabilities to other modalities. Experiments on various benchmarks demonstrate that Stream-Omni achieves strong performance on visual understanding, speech interaction, and vision-grounded speech interaction tasks. Owing to the layer-dimensional mapping, Stream-Omni can simultaneously provide intermediate text outputs (such as ASR transcriptions and model responses) during speech interaction, offering users a comprehensive multimodal experience.

arxiv情報

著者 Shaolei Zhang,Shoutao Guo,Qingkai Fang,Yan Zhou,Yang Feng
発行日 2025-06-16 16:06:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS | Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model はコメントを受け付けていません

Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning

要約

EGO-R1は、補強学習(RL)を介して訓練されたEGO-R1エージェントによって調整された構造化されたチェーンオブチャーチ(COTT)プロセスを活用する超長い(つまり、数日と数週間)エゴセントリックビデオで推論するための新しいフレームワークを紹介します。
人間の問題解決戦略に触発されたコットは、複雑な推論をモジュラーステップに分解し、RLエージェントは特定のツールをステップごとに呼び出し、一時的な検索やマルチモーダル理解などのタスクに取り組むサブ質問に繰り返し回答します。
コットデータとRLを使用して、前処理された言語モデルの監視された微調整(SFT)を含む2段階のトレーニングパラダイムを設計し、エージェントが長距離推論のために段階的なツールを動的に提案できるようにします。
トレーニングを容易にするために、SFTのエゴコット-25KとRL用のeGo-QA-4.4Kで構成されるEGO-R1データと呼ばれるデータセットを構築します。
さらに、当社のEGO-R1エージェントは、ハイブリッドソースからのヒトで検証されたQAペアを含む、新しくキュレーションされた1週間のビデオQAベンチマークであるEGO-R1ベンチで評価されます。
広範な結果は、EGO-R1エージェントによる動的でツールを熟成したチェーンの推論が、超長いエゴセントリックビデオを理解するというユニークな課題に効果的に取り組むことができ、数時間から1週間までの時間のカバレッジを大幅に拡大できることを示しています。

要約(オリジナル)

We introduce Ego-R1, a novel framework for reasoning over ultra-long (i.e., in days and weeks) egocentric videos, which leverages a structured Chain-of-Tool-Thought (CoTT) process, orchestrated by an Ego-R1 Agent trained via reinforcement learning (RL). Inspired by human problem-solving strategies, CoTT decomposes complex reasoning into modular steps, with the RL agent invoking specific tools, one per step, to iteratively and collaboratively answer sub-questions tackling such tasks as temporal retrieval and multi-modal understanding. We design a two-stage training paradigm involving supervised finetuning (SFT) of a pretrained language model using CoTT data and RL to enable our agent to dynamically propose step-by-step tools for long-range reasoning. To facilitate training, we construct a dataset called Ego-R1 Data, which consists of Ego-CoTT-25K for SFT and Ego-QA-4.4K for RL. Furthermore, our Ego-R1 agent is evaluated on a newly curated week-long video QA benchmark, Ego-R1 Bench, which contains human-verified QA pairs from hybrid sources. Extensive results demonstrate that the dynamic, tool-augmented chain-of-thought reasoning by our Ego-R1 Agent can effectively tackle the unique challenges of understanding ultra-long egocentric videos, significantly extending the time coverage from few hours to a week.

arxiv情報

著者 Shulin Tian,Ruiqi Wang,Hongming Guo,Penghao Wu,Yuhao Dong,Xiuying Wang,Jingkang Yang,Hao Zhang,Hongyuan Zhu,Ziwei Liu
発行日 2025-06-16 16:17:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning はコメントを受け付けていません