Spectral Compression Transformer with Line Pose Graph for Monocular 3D Human Pose Estimation

要約

変圧器ベースの3Dヒトポーズ推定方法は、シーケンス長に関する二次複雑さのために高い計算コストに悩まされています。
さらに、ポーズシーケンスには、多くの場合、フレーム間に大きな冗長性が含まれます。
ただし、最近の方法は通常、モデル容量を改善することができず、シーケンスの冗長性を効果的に排除します。
この作業では、スペクトル圧縮トランス(SCT)を導入して、シーケンスの長さを減らし、計算を加速します。
SCTエンコーダーは、ブロック間の隠された特徴を時間的特徴信号(TFS)として扱い、フーリエ変換ベースの技術である離散コサイン変換を適用して、保持するスペクトル成分を決定します。
特定の高周波ノイズ成分を除外することにより、SCTはシーケンス長を圧縮し、冗長性を減らします。
以前の構造情報で入力シーケンスをさらに豊かにするために、線グラフ理論に基づいて、ラインポーズグラフ(LPG)を提案します。
LPGは、入力2Dジョイント位置を補完する骨格位置情報を生成し、それによりモデルのパフォーマンスが向上します。
最後に、デュアルストリームネットワークアーキテクチャを設計して、ポーズシーケンス内の空間的な関節関係と圧縮運動軌道を効果的にモデル化します。
2つのベンチマークデータセット(つまり、Human3.6MおよびMPI-INF-3DHP)での広範な実験は、私たちのモデルが計算効率が向上して最先端のパフォーマンスを達成することを示しています。
たとえば、Human3.6mデータセットでは、計算コストが低い間、MPJPEが37.7mmのMPJPEを達成します。
さらに、各モジュールでアブレーション研究を実行して、その有効性を評価します。
コードとモデルがリリースされます。

要約(オリジナル)

Transformer-based 3D human pose estimation methods suffer from high computational costs due to the quadratic complexity of self-attention with respect to sequence length. Additionally, pose sequences often contain significant redundancy between frames. However, recent methods typically fail to improve model capacity while effectively eliminating sequence redundancy. In this work, we introduce the Spectral Compression Transformer (SCT) to reduce sequence length and accelerate computation. The SCT encoder treats hidden features between blocks as Temporal Feature Signals (TFS) and applies the Discrete Cosine Transform, a Fourier transform-based technique, to determine the spectral components to be retained. By filtering out certain high-frequency noise components, SCT compresses the sequence length and reduces redundancy. To further enrich the input sequence with prior structural information, we propose the Line Pose Graph (LPG) based on line graph theory. The LPG generates skeletal position information that complements the input 2D joint positions, thereby improving the model’s performance. Finally, we design a dual-stream network architecture to effectively model spatial joint relationships and the compressed motion trajectory within the pose sequence. Extensive experiments on two benchmark datasets (i.e., Human3.6M and MPI-INF-3DHP) demonstrate that our model achieves state-of-the-art performance with improved computational efficiency. For example, on the Human3.6M dataset, our method achieves an MPJPE of 37.7mm while maintaining a low computational cost. Furthermore, we perform ablation studies on each module to assess its effectiveness. The code and models will be released.

arxiv情報

著者 Zenghao Zheng,Lianping Yang,Hegui Zhu,Mingrui Ye
発行日 2025-05-27 15:08:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Spectral Compression Transformer with Line Pose Graph for Monocular 3D Human Pose Estimation はコメントを受け付けていません

SHARDeg: A Benchmark for Skeletal Human Action Recognition in Degraded Scenarios

要約

検出、予測、または分類タスクのコンピュータービジョン(CV)モデルは、リアルタイムまたはリソース制約のハードウェアで展開するため、多くの場合、現実の世界で劣化するビデオデータストリームで動作します。
したがって、これらのモデルは劣化したデータに対して堅牢であることが重要ですが、これらの実際の制約を念頭に置いて、最先端(SOTA)モデルはしばしば不十分に評価されます。
これは、リアルタイムおよびエッジで動作する多くのCVパイプラインで重要である骨格のヒトアクション認識(Shar)によって例示されていますが、劣化したデータに対する堅牢性は以前は浅くて一貫性のない評価されていました。
ここでは、最も詳細かつ最大の3DオープンデータセットであるNTU-RGB+D-120で重要な最初のデータ分解ベンチマークを提供することにより、Sharのこの問題に対処し、5つの主要なSharモデルの堅牢性を、実際の問題を表す3つの形態の劣化に評価します。
以前に考慮されていなかった劣化の形態がモデルの精度に大きな影響を与えることを示すことにより、このベンチマークの必要性を実証します。
同じ有効なフレームレートでは、モデルの精度は分解タイプに応じて40%以上変化する可能性があります。
また、分解されたSharデータのフレームの時間的規則性がモデルのパフォーマンスの違いの主要な要因である可能性が高いことを特定し、補間に基づいた単純な緩和アプローチを採用することにより、既存のモデルのパフォーマンスを最大40%増加させることができます。
最後に、私たちのベンチマークが、ラフパス理論に基づいた重要な劣化耐性のSharモデルを特定するのにどのように役立ったかを強調しています。
logsigrnn sharモデルは、SOTAモデルが6%の低いケースのうち5症例で6%のSota Degcnモデルを上回ります。

要約(オリジナル)

Computer vision (CV) models for detection, prediction or classification tasks operate on video data-streams that are often degraded in the real world, due to deployment in real-time or on resource-constrained hardware. It is therefore critical that these models are robust to degraded data, but state of the art (SoTA) models are often insufficiently assessed with these real-world constraints in mind. This is exemplified by Skeletal Human Action Recognition (SHAR), which is critical in many CV pipelines operating in real-time and at the edge, but robustness to degraded data has previously only been shallowly and inconsistently assessed. Here we address this issue for SHAR by providing an important first data degradation benchmark on the most detailed and largest 3D open dataset, NTU-RGB+D-120, and assess the robustness of five leading SHAR models to three forms of degradation that represent real-world issues. We demonstrate the need for this benchmark by showing that the form of degradation, which has not previously been considered, has a large impact on model accuracy; at the same effective frame rate, model accuracy can vary by >40% depending on degradation type. We also identify that temporal regularity of frames in degraded SHAR data is likely a major driver of differences in model performance, and harness this to improve performance of existing models by up to >40%, through employing a simple mitigation approach based on interpolation. Finally, we highlight how our benchmark has helped identify an important degradation-resistant SHAR model based in Rough Path Theory; the LogSigRNN SHAR model outperforms the SoTA DeGCN model in five out of six cases at low frame rates by an average accuracy of 6%, despite trailing the SoTA model by 11-12% on un-degraded data at high frame rates (30 FPS).

arxiv情報

著者 Simon Malzard,Nitish Mital,Richard Walters,Victoria Nockles,Raghuveer Rao,Celso M. De Melo
発行日 2025-05-27 15:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SHARDeg: A Benchmark for Skeletal Human Action Recognition in Degraded Scenarios はコメントを受け付けていません

Efficient Leaf Disease Classification and Segmentation using Midpoint Normalization Technique and Attention Mechanism

要約

葉の画像からの植物疾患の検出の強化は、標識データが不足していることと複雑な文脈的要因により、持続的な課題のままです。
インテリジェントな画像前処理のための変換2段階の方法論、ミッドポイント正規化(MPN)を紹介し、特徴表現を動的に再調整する洗練された注意メカニズムと相まっています。
MPNをスクイーズアンドエクスケーション(SE)ブロックと統合する分類パイプラインは、並外れたクラスごとのバランスを維持しながら、顕著な93%の精度を実現します。
ターゲットクラスで達成された完全なF1スコアは、適応機能の改良における注意のパワーを例示しています。
セグメンテーションタスクでは、MPN強化入力を使用してU-Netアーキテクチャ内の同一の注意ブロックをシームレスに統合し、72.44%のDICEスコアと58.54%IOUで魅力的なパフォーマンスゲインを提供し、ベースラインの実装を大幅に上回ります。
優れた精度メトリックを超えて、当社のアプローチは、実際のコンピュータービジョンアプリケーションに完全に適した計算効率の良い軽量アーキテクチャを生成します。

要約(オリジナル)

Enhancing plant disease detection from leaf imagery remains a persistent challenge due to scarce labeled data and complex contextual factors. We introduce a transformative two-stage methodology, Mid Point Normalization (MPN) for intelligent image preprocessing, coupled with sophisticated attention mechanisms that dynamically recalibrate feature representations. Our classification pipeline, merging MPN with Squeeze-and-Excitation (SE) blocks, achieves remarkable 93% accuracy while maintaining exceptional class-wise balance. The perfect F1 score attained for our target class exemplifies attention’s power in adaptive feature refinement. For segmentation tasks, we seamlessly integrate identical attention blocks within U-Net architecture using MPN-enhanced inputs, delivering compelling performance gains with 72.44% Dice score and 58.54% IoU, substantially outperforming baseline implementations. Beyond superior accuracy metrics, our approach yields computationally efficient, lightweight architectures perfectly suited for real-world computer vision applications.

arxiv情報

著者 Enam Ahmed Taufik,Antara Firoz Parsa,Seraj Al Mahmud Mostafa
発行日 2025-05-27 15:14:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Efficient Leaf Disease Classification and Segmentation using Midpoint Normalization Technique and Attention Mechanism はコメントを受け付けていません

efunc: An Efficient Function Representation without Neural Networks

要約

関数フィッティング/近似は、コンピューターグラフィックスおよびその他のエンジニアリングアプリケーションで基本的な役割を果たします。
最近の進歩により、このタスクに対処するためにニューラルネットワークが調査されていますが、これらの方法は多くのパラメーターを持つアーキテクチャに依存しており、実用的な適用性を制限しています。
対照的に、ニューラルネットワークへの依存性を完全に排除するパラメーター効率の高い表現を使用して、高品質の関数近似を追求します。
まず、連続関数モデリングのための新しいフレームワークを提案します。
ほとんどの既存の作品は、このフレームワークを使用して策定できます。
次に、ラジアル基底関数を使用して補間された多項式に基づいたコンパクト関数表現を導入し、ニューラルネットワークと複雑な/階層データ構造の両方をバイパスします。
また、従来の自動分化フレームワークと比較して、計算時間とメモリ消費を10%未満に減らすメモリ効率の高いCUDA最適化アルゴリズムも開発します。
最後に、3D署名距離関数(SDF)に関する広範な実験を通じて、表現と最適化パイプラインを検証します。
提案された表現は、パラメーターが大幅に少ない最先端のテクニック(例:Octree/Hash-Gridテクニック)と同等または優れたパフォーマンスを達成します。

要約(オリジナル)

Function fitting/approximation plays a fundamental role in computer graphics and other engineering applications. While recent advances have explored neural networks to address this task, these methods often rely on architectures with many parameters, limiting their practical applicability. In contrast, we pursue high-quality function approximation using parameter-efficient representations that eliminate the dependency on neural networks entirely. We first propose a novel framework for continuous function modeling. Most existing works can be formulated using this framework. We then introduce a compact function representation, which is based on polynomials interpolated using radial basis functions, bypassing both neural networks and complex/hierarchical data structures. We also develop memory-efficient CUDA-optimized algorithms that reduce computational time and memory consumption to less than 10% compared to conventional automatic differentiation frameworks. Finally, we validate our representation and optimization pipeline through extensive experiments on 3D signed distance functions (SDFs). The proposed representation achieves comparable or superior performance to state-of-the-art techniques (e.g., octree/hash-grid techniques) with significantly fewer parameters.

arxiv情報

著者 Biao Zhang,Peter Wonka
発行日 2025-05-27 15:16:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | efunc: An Efficient Function Representation without Neural Networks はコメントを受け付けていません

MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on

要約

Video Virtual Try-On(VVT)は、連続したビデオフレームにわたる衣服の自然な外観をシミュレートし、動的なバリエーションと人体の動きとの相互作用をキャプチャすることを目的としています。
ただし、現在のVVTメソッドは、時空間的な一貫性と衣服の内容の保存という点で依然として課題に直面しています。
第一に、彼らはU-NETに基づいて拡散モデルを使用します。U-Netは、表現力のある能力が制限され、複雑な詳細を再構築するのに苦労しています。
第二に、彼らは空間的および時間的注意のために分離モデリングアプローチを採用します。これは、構造的関係の効果的なキャプチャとフレーム間の動的な一貫性を妨げます。
第三に、衣服の詳細の表現は不十分であり、特に人間の動きの間、全体的な合成結果のリアリズムと安定性に影響を与えます。
上記の課題に対処するために、大規模なビデオ拡散トランスの上に構築されたビデオ仮想トライオンフレームワークであるMagicTryonを提案します。U-NETアーキテクチャを拡散変圧器に置き換え、完全な自己関節を組み合わせて、ビデオの時空間的一貫性を共同でモデル化します。
粗から洗練された衣服の保存戦略を設計します。
粗い戦略は、埋め込み段階で衣服トークンを統合しますが、細かい戦略には、除去段階でのセマンティクス、テクスチャ、輪郭線などの複数の衣服ベースの条件が組み込まれています。
さらに、衣服地域の忠実度をさらに最適化するために、マスクを意識した損失を導入します。
画像とビデオの両方のデータセットでの広範な実験は、この方法が包括的な評価で既存のSOTAメソッドを上回り、野生のシナリオに一般化することを示しています。

要約(オリジナル)

Video Virtual Try-On (VVT) aims to simulate the natural appearance of garments across consecutive video frames, capturing their dynamic variations and interactions with human body motion. However, current VVT methods still face challenges in terms of spatiotemporal consistency and garment content preservation. First, they use diffusion models based on the U-Net, which are limited in their expressive capability and struggle to reconstruct complex details. Second, they adopt a separative modeling approach for spatial and temporal attention, which hinders the effective capture of structural relationships and dynamic consistency across frames. Third, their expression of garment details remains insufficient, affecting the realism and stability of the overall synthesized results, especially during human motion. To address the above challenges, we propose MagicTryOn, a video virtual try-on framework built upon the large-scale video diffusion Transformer.We replace the U-Net architecture with a diffusion Transformer and combine full self-attention to jointly model the spatiotemporal consistency of videos. We design a coarse-to-fine garment preservation strategy. The coarse strategy integrates garment tokens during the embedding stage, while the fine strategy incorporates multiple garment-based conditions, such as semantics, textures, and contour lines during the denoising stage. Moreover, we introduce a mask-aware loss to further optimize garment region fidelity. Extensive experiments on both image and video try-on datasets demonstrate that our method outperforms existing SOTA methods in comprehensive evaluations and generalizes to in-the-wild scenarios.

arxiv情報

著者 Guangyuan Li,Siming Zheng,Hao Zhang,Jinwei Chen,Junsheng Luan,Binkai Ou,Lei Zhao,Bo Li,Peng-Tao Jiang
発行日 2025-05-27 15:22:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on はコメントを受け付けていません

MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs

要約

論理的推論は、人間の知性の基本的な側面であり、マルチモーダル大手言語モデル(MLLM)にとって重要な能力です。
マルチモーダル推論の大幅な進歩にもかかわらず、既存のベンチマークは、論理的推論タイプの明示的な分類がないため、推論の不明確な理解のために、推論能力を包括的に評価することができません。
これらの問題に対処するために、MLLMSの推論能力を評価するために設計された包括的なベンチマークであるMME-Reasoningを紹介します。
データを慎重にキュレートして、各質問が知覚スキルや知識の幅ではなく推論能力を効果的に評価し、評価プロトコルを拡張して多様な質問の評価をカバーします。
私たちの評価は、論理的推論能力の全体的な評価にさらされた場合、最先端のMLLMの実質的な制限を明らかにしています。
最も先進的なMLLMでさえ、包括的な論理的推論で限られたパフォーマンスを示しており、推論タイプにわたって顕著なパフォーマンスの不均衡があります。
さらに、「思考モード」やルールベースのRLなどのアプローチの詳細な分析を実施しました。これは、一般に推論能力を高めると考えられています。
これらの調査結果は、多様な論理的推論シナリオにおける現在のMLLMの重要な制限とパフォーマンスの不均衡を強調し、推論能力の理解と評価に関する包括的かつ体系的な洞察を提供します。

要約(オリジナル)

Logical reasoning is a fundamental aspect of human intelligence and an essential capability for multimodal large language models (MLLMs). Despite the significant advancement in multimodal reasoning, existing benchmarks fail to comprehensively evaluate their reasoning abilities due to the lack of explicit categorization for logical reasoning types and an unclear understanding of reasoning. To address these issues, we introduce MME-Reasoning, a comprehensive benchmark designed to evaluate the reasoning ability of MLLMs, which covers all three types of reasoning (i.e., inductive, deductive, and abductive) in its questions. We carefully curate the data to ensure that each question effectively evaluates reasoning ability rather than perceptual skills or knowledge breadth, and extend the evaluation protocols to cover the evaluation of diverse questions. Our evaluation reveals substantial limitations of state-of-the-art MLLMs when subjected to holistic assessments of logical reasoning capabilities. Even the most advanced MLLMs show limited performance in comprehensive logical reasoning, with notable performance imbalances across reasoning types. In addition, we conducted an in-depth analysis of approaches such as “thinking mode” and Rule-based RL, which are commonly believed to enhance reasoning abilities. These findings highlight the critical limitations and performance imbalances of current MLLMs in diverse logical reasoning scenarios, providing comprehensive and systematic insights into the understanding and evaluation of reasoning capabilities.

arxiv情報

著者 Jiakang Yuan,Tianshuo Peng,Yilei Jiang,Yiting Lu,Renrui Zhang,Kaituo Feng,Chaoyou Fu,Tao Chen,Lei Bai,Bo Zhang,Xiangyu Yue
発行日 2025-05-27 15:23:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs はコメントを受け付けていません

One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

要約

スーパー解像度(SR)の拡散モデルは、高品質の視覚的結果を生成しますが、高価な計算コストが必要です。
拡散ベースのSRモデルを加速するためのいくつかの方法の開発にもかかわらず、一部の(たとえば、SINSR)は現実的な知覚的な詳細を生成できませんが、他の(例えば、Osediff)は存在しない構造を幻覚させる可能性があります。
これらの問題を克服するために、トップの拡散ベースのSRモデルの1つであるResshiftの新しい蒸留方法であるRSDを提示します。
私たちの方法は、学生ネットワークのトレーニングに基づいて、新しい偽のResshiftモデルが訓練された画像を作成し、教師モデルと一致します。
RSDはシングルステップの回復を達成し、大きなマージンで教師を上回ります。
私たちの蒸留方法は、Resshiftの他の蒸留ベースの方法であるSinsr-を上回ることができることを示しています。
事前に訓練されたテキストからイメージまでのモデルに基づいたSRメソッドと比較して、RSDは競争力のある知覚品質を生成し、劣化した入力画像により良いアラインメントを備えた画像を提供し、より少ないパラメーターとGPUメモリを必要とします。
RealSR、RealSet65、DREALSR、IMAGENET、DIV2Kなど、さまざまな現実世界および合成データセットで実験結果を提供します。

要約(オリジナル)

Diffusion models for super-resolution (SR) produce high-quality visual results but require expensive computational costs. Despite the development of several methods to accelerate diffusion-based SR models, some (e.g., SinSR) fail to produce realistic perceptual details, while others (e.g., OSEDiff) may hallucinate non-existent structures. To overcome these issues, we present RSD, a new distillation method for ResShift, one of the top diffusion-based SR models. Our method is based on training the student network to produce such images that a new fake ResShift model trained on them will coincide with the teacher model. RSD achieves single-step restoration and outperforms the teacher by a large margin. We show that our distillation method can surpass the other distillation-based method for ResShift – SinSR – making it on par with state-of-the-art diffusion-based SR distillation methods. Compared to SR methods based on pre-trained text-to-image models, RSD produces competitive perceptual quality, provides images with better alignment to degraded input images, and requires fewer parameters and GPU memory. We provide experimental results on various real-world and synthetic datasets, including RealSR, RealSet65, DRealSR, ImageNet, and DIV2K.

arxiv情報

著者 Daniil Selikhanovych,David Li,Aleksei Leonov,Nikita Gushchin,Sergei Kushneriuk,Alexander Filippov,Evgeny Burnaev,Iaroslav Koshelev,Alexander Korotin
発行日 2025-05-27 15:26:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation はコメントを受け付けていません

MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios

要約

マルチモーダル大手言語モデル(MLLM)は、静的画像から光学文字認識(OCR)でかなりの精度を達成しています。
ただし、ビデオOCRでの有効性は、動画ぼかし、時間的変動、ビデオコンテンツに固有の視覚効果などの要因により、大幅に減少しています。
実用的なMLLMSをトレーニングするためのより明確なガイダンスを提供するために、包括的な範囲のビデオOCRアプリケーションシナリオを含むMME-Videoocrベンチマークを紹介します。
MME-Videoocrは、25の個別のタスクで構成される10のタスクカテゴリを備えており、44の多様なシナリオにまたがっています。
これらのタスクは、ビデオ内にテキストコンテンツのより深い理解と推論を組み込むために、テキスト認識を超えて拡張されています。
ベンチマークは、さまざまな解像度、アスペクト比、および期間を備えた1,464個のビデオと、2,000個の細心の注意を払った手動で注釈された質問分配ペアで構成されています。
MME-Videoococで18の最先端のMLLMを評価し、最高のパフォーマンスモデル(Gemini-2.5Pro)でさえ73.7%の精度を達成していることが明らかになりました。
微調整された分析は、既存のMLLMが単一のフレームまたは少数のフレーム内に関連するテキストが含まれているタスクで強力なパフォーマンスを示しているが、ホリスティックなビデオ理解を要求するタスクを効果的に処理する際に限られた機能を示すことを示しています。
これらの制限は、時空間の推論、クロスフレーム情報統合、または言語の事前バイアスに対する抵抗を必要とするシナリオで特に顕著です。
また、私たちの調査結果は、ダイナミックビデオシナリオでの信頼できるOCRの高解像度の視覚入力と十分な時間的カバレッジの重要性を強調しています。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have achieved considerable accuracy in Optical Character Recognition (OCR) from static images. However, their efficacy in video OCR is significantly diminished due to factors such as motion blur, temporal variations, and visual effects inherent in video content. To provide clearer guidance for training practical MLLMs, we introduce the MME-VideoOCR benchmark, which encompasses a comprehensive range of video OCR application scenarios. MME-VideoOCR features 10 task categories comprising 25 individual tasks and spans 44 diverse scenarios. These tasks extend beyond text recognition to incorporate deeper comprehension and reasoning of textual content within videos. The benchmark consists of 1,464 videos with varying resolutions, aspect ratios, and durations, along with 2,000 meticulously curated, manually annotated question-answer pairs. We evaluate 18 state-of-the-art MLLMs on MME-VideoOCR, revealing that even the best-performing model (Gemini-2.5 Pro) achieves an accuracy of only 73.7%. Fine-grained analysis indicates that while existing MLLMs demonstrate strong performance on tasks where relevant texts are contained within a single or few frames, they exhibit limited capability in effectively handling tasks that demand holistic video comprehension. These limitations are especially evident in scenarios that require spatio-temporal reasoning, cross-frame information integration, or resistance to language prior bias. Our findings also highlight the importance of high-resolution visual input and sufficient temporal coverage for reliable OCR in dynamic video scenarios.

arxiv情報

著者 Yang Shi,Huanqian Wang,Wulin Xie,Huanyao Zhang,Lijie Zhao,Yi-Fan Zhang,Xinfeng Li,Chaoyou Fu,Zhuoer Wen,Wenting Liu,Zhuoran Zhang,Xinlong Chen,Bohan Zeng,Sihan Yang,Yuanxing Zhang,Pengfei Wan,Haotian Wang,Wenjing Yang
発行日 2025-05-27 15:27:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios はコメントを受け付けていません

HoliTom: Holistic Token Merging for Fast Video Large Language Models

要約

ビデオ大規模な言語モデル(ビデオLLM)はビデオ理解に優れていますが、冗長なビデオトークンのためにかなりの計算非効率性に直面しています。
既存のトークン剪定方法はソリューションを提供します。
ただし、FASTVなどのLLM内で動作するアプローチ(内部LLM剪定)は、浅い層で固有の計算オーバーヘッドを発生します。
対照的に、LLMの前にトークン剪定を実行する方法(外側LLM剪定)は、主に個々のフレームまたは限られた時間窓内の空間冗長性に対処し、より長いビデオシーケンスにわたる重要なグローバルな時間的ダイナミクスと相関を無視します。
これは、最適下の時空間削減につながり、ビデオの圧縮率を完全に活用しません。
重要なことに、これらの戦略を組み合わせることの相乗的な潜在的および相互の影響は未開拓のままです。
冗長性をさらに低減するために、新しいトレーニングのないホリスケートトークンマージフレームワークであるHolitomを紹介します。
Holitomは、グローバルな冗長性を意識した時間的セグメンテーションを通じて外部LLM剪定を採用し、その後空間的なマージを行い、視覚トークンを90%以上削減し、LLMの計算負担を大幅に緩和します。
これを補完すると、優れたパフォーマンスと外部LLMプルーニングとの互換性のために設計された、堅牢な内部llmトークンの類似性ベースのマージアプローチを導入します。
評価は、LLAVA-OneVision-7Bでのメソッドの有望な効率パフォーマンストレードオフを示しており、元のパフォーマンスの99.1%を維持しながら、計算コストをフロップの6.9%に削減します。
さらに、スループットのデコードにおける時間の時間(TTFT)の2.28倍の減少と1.32倍の加速を達成し、効率的なビデオLLMS推論のための統合された剪定アプローチの実際的な利点を強調しています。

要約(オリジナル)

Video large language models (video LLMs) excel at video comprehension but face significant computational inefficiency due to redundant video tokens. Existing token pruning methods offer solutions. However, approaches operating within the LLM (inner-LLM pruning), such as FastV, incur intrinsic computational overhead in shallow layers. In contrast, methods performing token pruning before the LLM (outer-LLM pruning) primarily address spatial redundancy within individual frames or limited temporal windows, neglecting the crucial global temporal dynamics and correlations across longer video sequences. This leads to sub-optimal spatio-temporal reduction and does not leverage video compressibility fully. Crucially, the synergistic potential and mutual influence of combining these strategies remain unexplored. To further reduce redundancy, we introduce HoliTom, a novel training-free holistic token merging framework. HoliTom employs outer-LLM pruning through global redundancy-aware temporal segmentation, followed by spatial-temporal merging to reduce visual tokens by over 90%, significantly alleviating the LLM’s computational burden. Complementing this, we introduce a robust inner-LLM token similarity-based merging approach, designed for superior performance and compatibility with outer-LLM pruning. Evaluations demonstrate our method’s promising efficiency-performance trade-off on LLaVA-OneVision-7B, reducing computational costs to 6.9% of FLOPs while maintaining 99.1% of the original performance. Furthermore, we achieve a 2.28x reduction in Time-To-First-Token (TTFT) and a 1.32x acceleration in decoding throughput, highlighting the practical benefits of our integrated pruning approach for efficient video LLMs inference.

arxiv情報

著者 Kele Shao,Keda Tao,Can Qin,Haoxuan You,Yang Sui,Huan Wang
発行日 2025-05-27 15:28:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HoliTom: Holistic Token Merging for Fast Video Large Language Models はコメントを受け付けていません

Structure from Collision

要約

ニューラル放射輝度フィールド(NERF)や3Dガウススプラッティング(3DG)などの神経3D表現の最近の進歩により、マルチビュー画像からの3D構造の正確な推定が可能になりました。
ただし、この機能は、可視外部構造を推定し、表面の後ろに隠された目に見えない内部構造を識別することは困難です。
この制限を克服するために、衝突中の外観からのオブジェクトの構造(目に見えない内部構造を含む)を推定することを目的とする衝突(SFC)の構造と呼ばれる新しいタスクに対処します。
この問題を解決するために、物理的、外観(つまり、可視外部構造) – 摂取、およびキーフレームの制約の下でのビデオシーケンスを介してオブジェクトの目に見えない内部構造を最適化するSFC-NERFという新しいモデルを提案します。
特に、不適切な性質のために望ましくないローカルオプティマに陥ることを避けるために、ボリュームアニーリングを提案します。
つまり、ボリュームを繰り返し減少および拡大することにより、グローバルオプティマを検索します。
多様な構造(すなわち、さまざまな空洞形状、位置、およびサイズ)と材料特性を含む115のオブジェクトに関する広範な実験により、SFCの特性が明らかになり、提案されたSFC-NERFの有効性が実証されました。

要約(オリジナル)

Recent advancements in neural 3D representations, such as neural radiance fields (NeRF) and 3D Gaussian splatting (3DGS), have enabled the accurate estimation of 3D structures from multiview images. However, this capability is limited to estimating the visible external structure, and identifying the invisible internal structure hidden behind the surface is difficult. To overcome this limitation, we address a new task called Structure from Collision (SfC), which aims to estimate the structure (including the invisible internal structure) of an object from appearance changes during collision. To solve this problem, we propose a novel model called SfC-NeRF that optimizes the invisible internal structure of an object through a video sequence under physical, appearance (i.e., visible external structure)-preserving, and keyframe constraints. In particular, to avoid falling into undesirable local optima owing to its ill-posed nature, we propose volume annealing; that is, searching for global optima by repeatedly reducing and expanding the volume. Extensive experiments on 115 objects involving diverse structures (i.e., various cavity shapes, locations, and sizes) and material properties revealed the properties of SfC and demonstrated the effectiveness of the proposed SfC-NeRF.

arxiv情報

著者 Takuhiro Kaneko
発行日 2025-05-27 15:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.RO | Structure from Collision はコメントを受け付けていません